国内或国外 期刊或论文

您当前的位置:发表学术论文网电子论文》 基于学者画像的科研合作者推荐研究> 正文

基于学者画像的科研合作者推荐研究

所属分类:电子论文 阅读次 时间:2022-04-09 12:05

本文摘要:摘要:[目的]为帮助学者快速地找到合适的科研合作者,促进科研产出、增进学术交流。[方法]本文采用 LDA 主题模型、PageRank 算法、社会网络分析法等方法,全面深入挖掘学者的自然属性、兴趣属性、能力属性、社交属性 4 个维度特征以构建学者画像,并基于学者偏好开展科

  摘要:[目的]为帮助学者快速地找到合适的科研合作者,促进科研产出、增进学术交流。[方法]本文采用 LDA 主题模型、PageRank 算法、社会网络分析法等方法,全面深入挖掘学者的自然属性、兴趣属性、能力属性、社交属性 4 个维度特征以构建学者画像,并基于学者偏好开展科研合作者推荐。[结果]从 CNKI 和 CSSCI 中获取图书情报领域 14007 篇文献、13292 条引文数据及 11869 位作者验证本文所提模型,最终向目标学者推荐了 20 名研究兴趣相似及互补的潜在科研合作者。[局限]本文未能很好地解决冷启动问题,且在学者能力表征方面忽略了不同署名顺序的作者对论文的贡献度,在实证环节数据量选择有限。[结论]本模型可以有效地向目标学者推荐高权威度、高相关度,且科研生产力和社交关系等多方面特征均高度匹配的潜在科研合作者,具有较好地应用价值。

  关键词:学者画像;科研合作者推荐;LDA 主题模型;PageRank 算法;社会网络分析法

科研学者

  1 引言

  近年来,学科知识的交叉融合使得科学研究呈现出综合性和复杂性的趋势,研究人员为高效解决现有科研问题,通常开展协同互助的科学活动,该过程也被称为科研合作。多项研究显示科研合作能够有效提高学者科研质量、促进科研产出[1],所以,高质量的科研合作可极大激励学者进行科研交流和思维碰撞,从而推动科学发展。当前,大多数学者通过社交圈、参加学术会议、历史合作记录等途径来选择科研合作者,这些方式容易受到时间、空间等因素的影响且可供选择范围受限,导致学者错失与潜在合作者进行科研合作的机会;虽然学者可以利用科研社交平台进行学术交流发现潜在合作者,但上述平台存在的数据过载及数据质量良莠不齐的问题同样不容忽视[2]。

  因此,充分挖掘学者特征为其推荐科研合作者势在必行。鉴于学者相关数据来源多样,不同学者开展合作原因各异,而现有研究往往通过学者兴趣、权威度或社交属性等单项或其中多项属性开展推荐,未能构建学者信息全貌,使得科研合作者推荐研究存在一定局限。所以,本文将致力于广泛收集学者数据,构建学者画像,精细分析学者自然属性、兴趣属性、能力属性和社交属性,开展基于学者画像的科研合作者推荐研究,以期提高现有科学合作者推荐水平。

  2 相关研究

  对于科研合作这一社会现象的机制和规律分析,一直受到国内外学者的广泛关注,不少社会学、图书情报领域的学者从科研合作的概念[3,4,5]、模式[6,7,8,9]、影响因素[10,11,12,13,14]等维度入手,开展了一系列高质量研究,针对科研潜在合作者的推荐研究相对较少,且已有成果基于研究方法可大致分为四类:基于内容的推荐、基于信息计量学指标的推荐、基于链接关系的推荐以及混合推荐。

  基于内容的推荐其核心在于表征学者历史研究内容,从而将研究领域最相近的科研合作者推荐给目标学者,其中,Rosen[15]等人在 LDA 模型中加入了文献的作者信息,提出了ATM 模型,可用于学者分类、相似学者推荐和学者兴趣集中的研究;LIU[16]等提取学者研究主题和学者的活跃度、保守度等基本特征。

  构建了一个寻找高潜力科研合作者的推荐框架;刘萍[17]等引入关键词信息对学者进行社团划分,而后借助LDA 模型提取学者的研究主题,实现科研合作者推荐。基于信息计量指标的学者推荐研究通常借助学者发表的论文数量以及论文的被引量等指标实现权威学者的识别与推荐,自 Hirsch[18]在 2005 年提出的 h 指数后,多位学者[19,20,21,22,23]针对h 指数直升不降、忽视高被引文献等不足提出改进,完善了学者评价指标,提高了权威学者的识别效率。

  此外,蒲姗姗[24]等引入面向主题的 h 指数以区别不同研究方向下的学者影响力,以此构建综合考虑学者的研究兴趣、知识结构与影响力的科研合作学者推荐模型。基于链接关系的学者推荐主要是利用学术网络的链接结构,识别高影响力的核心节点并结合其他评价算法指标开展推荐,国外学者Erjia[25]等为衡量学者影响力提出了一种考虑引文和协作网络拓扑结构的加权PageRank 算法,结合学者兴趣,帮助目标学者发现潜在合作者;Pham[26]等将论文的内容分析纳入科研合作者链路测度,设计了一种基于内容相似度的网络链接预测指标以发现更多潜在合作者;邓少伟[27]等借助论文合著关系开发了一种基于合著网络的推荐系统,为学者匹配科研合作者;余传明[28,29]集成基于节点位置的网络表示学习模型与基于网络结构的网络表示学习模型,利用机器学习进行深度挖掘,实现科研合作者推荐。由于上述三种方法评价维度较为单一。

  因此,基于这三种方法的混合推荐法成为更受学者青睐的主流推荐方法。综合已有研究可知,科研合作者推荐较好的融合了当前学术界的技术方法,在一定程度上发掘出了与目标学者更高相似度、更高权威度及更高活跃度的科研合作者,但与权威学者推荐、学术兴趣相似学者推荐、审稿专家推荐、问题服务专家推荐等方向的研究相比,科研合作者推荐研究不仅关注学者的研究兴趣、研究能力等属性,还应关注包括学术年龄、隶属机构的物理距离和所属学科发展水平等自然属性。

  因此,如何充分获取并挖掘学者自然属性、兴趣属性、能力属性及社交属性,精细构建学者画像成为提高科研合作学者推荐的科学性和准确性亟待解决的问题之一。基于此,本文将利用多项数据平台充分收集学者个人数据、论文数据、引文数据和合作数据,利用 LDA、PageRank 等算法提取学者多维属性,融合构建学者画像从而实现科研合作者推荐。

  3 基于学者画像的科研合作者推荐框架

  本文提出基于学者画像的科研合作者推荐模型,从多个学术资源数据库中采集多源数据,按照一定规则对其清洗加工后,抽取学者的自然属性、兴趣属性、能力属性及社交属性,从而精准构建学者画像,此外,本模型提供了基于用户偏好和领域内专家决策(AHP 方法)的两种参数获取机制用以加权融合上述四项属性,综合计算待推荐学者排名,最终实现基于学者画像的科研合作者推荐。

  3.1 学者自然属性

  学者自然属性包括基本的个人属性,例如职称和教育背景可用来表征学者学术能力,年龄和性别具有科研合作的同质性,并且由于自然属性稳定性较好,短时间内不会有较大变动,新入门的学者往往可依据自然属性找到部分潜在合作者,因而学者的自然属性常被用于科研合作者推荐领域。

  (1)学术年龄学术年龄是指一位学者进行学术相关工作的年限,其计算方法是最近一篇学术论文发表年份减去第一篇文章学术论文年份,本文用 AA(Academic Age)表示学术年龄。有研究表明学者更倾向于与具有相似年龄、学术年龄的学者合作,本文将借鉴已有研究[30]将学者按照学术年龄分为 3 组,即:入门学者(AA<12)、青年学者(12≤AA<24)和资深学者(24≤AA),并据此进行等级量化处理,得到学术年龄评级。

  (2)教育背景或职称在学术界更高的职称往往代表着更高的学术权威性,意味着更高质量的合作产出,因此学者们会更倾向于同高级职称的学者进行科研合作。我国各级科研院所已基本建立起完备的评价体系来授予学者职称,对于尚无职称的学者可以考虑利用教育背景和职称之间的相互关系,为其划分等级,例如,博士处于学术生涯的早期阶段,其独立科研的能力尚需加强,因此在量化评级时,将博士与初级职称划分为同一级别,鉴于博士后经过学术训练已基本达到初级学者的水平,且部分地区政策博士后出站可以直接申请副高级职称,因此本文将博士后定级至中级职称。

  (3)机构地理距离受益于网络通讯的快速发展,在线交流极大地削弱了地理距离的影响,但已有研究表明[32],受时间、空间的限制,地理距离对科研合作仍有明显的负向作用。通常情况下,科研合作主要发生在机构内、校内[9]、省内和国内[34],机构地理距离较远意味着学者所处单位经济水平、学科建设水平、政治、文化等背景差异较大,直接沟通的成本随之增加。

  以至于无法迅速有效地沟通和解决合作中出现问题,可能会降低合作的可能性,甚至导致合作中止,不利于学者之间建立信任关系,因此,关注学者的地理距离指标便能够在降低成本的前提下提高交流效率。鉴于学者所属城市众多,且省内进行科研合作的主力军为省会城市,因此本文将省份之间的经纬度作为地理距离的测量单位。

  3.2 学者兴趣

  属性学者兴趣属性是学者特征提取的核心,已有研究发现,当外部条件具备时,影响科研活动的决定因素是研究者的研究兴趣[10]。在科研合作场景中,拥有相似或相同研究兴趣的学者建立合作关系的成本较低,合作的可能性更高[5];与此同时,科学研究综合性和复杂性的发展趋势促使学者积极寻求具有互补知识或技能的学者以扩充自身知识体系。因此,本部分将精确表征学者兴趣,挖掘学者动态特征,为其寻求研究兴趣相似及互补学者。

  4 实证研究

  4.1 数据收集与预处理

  本文选择《中文核心期刊要目总览》第八版(2017 年版本)和 CSSCI(2016年版本)中 16 种影响因子大于 2 的图书情报领域核心期刊作为本文数据来源,以确保涵盖图书情报学研究前沿和主流方向。在 CNKI 中选取上述期刊于2015-2019 年发表的文献 14007 篇,将期刊来源类别限制为 CSSCI,文献分类目录选择“图书情报与数字图书馆”,在 CSSCI 中同样选取上述期刊发文年代为2015-2019 年的 13292 条引文数据,将学科类别限制“图书馆、情报与文献学”。

  分析“熊回香”教授的推荐结果可知,从学者个人属性维度而言,本模型成功将职称较高、与目标学者学术年龄相近、机构距离相近的学者识别出;从学者兴趣属性维度而言,兴趣相似推荐列表中,推荐学者均有和“熊回香”教授相近的研究方向,比如,“熊回香”教授的文章涉及学术能力评价、期刊评价、合作网络、期刊引用等信息计量学指标,推荐结果中有多位学者研究领域为信息计量与科学评价相关;兴趣互补推荐列表中,黄如花、鄂丽君等多位学者研究方向为图书馆学领域,如数字图书馆、信息服务、阅读推广等,金武刚、易斌等学者研究方向为公共文化服务相关领域,均为“熊回香”教授研究研究方向“网络信息组织与检索”的互补知识,能有效扩展该学者的研究思路和知识覆盖面。

  从学者能力属性维度而言,推荐列表中有 16 位学者的 h 指数均>15,机构均为 985 建设水平以上,具有较高的权威度和较好的声誉。且本文提出的融合逐年发文数的h 指数,不仅有效地融入了时间指标,还降低了部分 h 指数高,但是近期活跃度下降的学者的推荐得分;从学者社交属性维度而言,推荐学者的被引 PageRank值、学者合作中心度、机构合作中心度均较高,如学者邱均平、马费成、赵蓉英、苏新宁均具有较高的被引 PageRank 值,学者邱均平、朱庆华、毕强,机构武汉大学、南京大学、吉林大学在学者和机构合作网络中具有较高的中心度且处于中心位置,这些指标表明推荐学者的论文影响力和质量较高,且合作的意愿较为强烈。

  5 结语

  本文基于学者多源数据从自然属性、兴趣属性、能力属性和社交属性四个维度构建了学者画像,开展科研合作者推荐研究。在自然属性维度中,重点分析了学者学术年龄、职称或教育背景、机构所属省份三项特征;在兴趣属性维度中,引入遗忘因子处理学者所著文章摘要得到学者兴趣-概率分布,并得到与目标学者研究兴趣相似或互补的学者。

  在能力属性维度中,以融合了逐年发文年数的 h指数(ℎ𝑇)为主,机构的整体建设水平和领域内学科建设水平为辅,综合表征学者权威度和活跃度;在社交属性维度中,利用 PageRank 算法和 Gephi 软件挖掘学者的引文合作网络关系以揭示学者知识交流和传播的能力。

  而后,本模型提供了用户偏好参数获取接口和领域内专家层析分析法赋权两种方式用以线性加权融合上述 4 个维度的 11 项指标,得分较高的 top-N 学者为推荐的潜在合作学者,生成兴趣相似与互补两类推荐列表供目标学者参考。

  最后,文章收集 CNKI 和CSSCI 中图书情报领域近五年的学者和文本资源信息,对模型的可行性和推荐结果的有效性进行验证,取得良好运行效果。但整体来看,本研究仍存在一定的不足,例如对新入门学者未能完全解决推荐中的冷启动问题,没有考虑不同署名顺序的作者对论文的贡献度,从而影响到学者兴趣的精确表征和学术能力的评定。此外,实证环节数据量选择有限,未采用更多学科领域、更大的样本数据集以及更多语种的样本对该模型进行更加科学全面的验证,后续笔者也将以此为契机,开展更为充分全面的学术探索,以期为科研合作者推荐研究提供更高效可行的方案。

  参考文献

  [1]West J D,Jacquet J, King M M,et al.The role of gender in scholarly authorship[J].PLoSONE,2013,8(07):e66212.

  [2]Wang W,Yu S, Bekele T M,et al.Scientific Collaboration Patterns Vary with Scholars'AcademicAges[J].Scientometrics,2017,112(01):329-343.

  [3]Katz J S. Scale independent indicators and research assessment[J]. Science and PublicPolicy,2000,27(01):23-36.

  [4]Chavarro D A, Orozco L A. Policy change in the Colombian research evaluation system of research groups: Theneed for a different route[J]. Criterio Jurídico Garantista,2011,3(04):118-134

  .[5]赵蓉英,温芳芳.科研合作与知识交流[J].图书情报工作,2011,55(20):6-10.(Zhao Rongying,Wen Fangfang.Scientific research cooperation and knowledge communication[J]Library AndInformation Service, 2011,55 (20): 6-10.)

  [6]张丽华,田丹,曲建升.科研合作模式与科研人员角色的变化规律分析——以病毒学领域职业生涯至少为30 年的作者为例[J].情报学报,2020,39(07):719-730.(Zhang Lihua, Tian Dan, Qu Jiansheng.Analysis of change in research collaboration patterns and the role ofscientific researchers——Author in Virology with a career period of at least 30 years[J] Journal of The ChinaSociety for Scientific and Technical Information, 2020,39 (07): 719-730.)

  [7]enckendorff P,Zehrer A.Career and Collaboration Patterns in Tourism Research[J].Current Issues inTourism,2016,19(14):1-19.

  作者:董文慧 熊回香 杜 瑾 王妞妞

转载请注明来自发表学术论文网:http://www.fbxslw.com/dzlw/29959.html