本文摘要:摘要:[目的/意义]探索科研人员职业发展情况及其研究主题的变化规律不仅可以揭示科学生产力发展的内在机制,也有助于对科学事业的发展提供更好的政策指导与支持。[方法/过程]基于自然科学、社会科学、艺术与人文科学的代表性学科数据,对科研人员的职业高峰
摘要:[目的/意义]探索科研人员职业发展情况及其研究主题的变化规律不仅可以揭示科学生产力发展的内在机制,也有助于对科学事业的发展提供更好的政策指导与支持。[方法/过程]基于自然科学、社会科学、艺术与人文科学的代表性学科数据,对科研人员的职业高峰进行识别。在此基础上以职业高峰作为科研人员学术生涯的划分依据,采用自然语言处理中的Top2Vec主题建模方法识别研究主题,对科研人员学术生涯不同阶段所研究主题的主题相似度和主题转换概率进行分析。[结果/结论]研究结果表明,各学科科研人员总体上在经历职业高峰之后的主题转换会更加频繁;而精英学者在经历职业高峰后其研究主题则反而更加专一。
关键词:科研人员职业高峰Top2Vec主题转换主题相似度
1引言
对于科研人员的职业生涯变化规律及其主题变迁的研究一直以来都是图书情报学领域的研究热点,尤其是对科研拔尖人才的研究更是社会与学术界关注的重点[1]。根据马太效应[2],科学家个体在职业生涯中取得优秀成绩能够带来声誉和认可。这些声誉和认可往往可以转化为有形资产,反过来有助于其未来职业的成功。最近发表在Nature上的一项研究也发现科研人员职业生涯中通常会涉及一段“高光时期”(hotstreak)。在这段时期内科学家个体的表现会大大高于其正常表现,最为显著的特征就是科学家个人在这段时期内的成果备受瞩目(科研成果被高频引用)[3]。
图书馆人员评职知识: 图书情报副研究馆员职称评选条件
尽管现有的研究发现在科学家职业生涯中存在类似的高光时期或高峰期,但是鲜有研究去深入挖掘职业高峰前后科研人员个体的科研工作到底发生了何种变化,特别是科研人员以及精英学者们在职业高峰期前后其研究主题发生了怎样的变化。2019年6月,中共中央办公厅和国务院办公厅在《关于进一步弘扬科学家精神加强作风和学风建设的意见》[4]中指出:“要加大对优秀科技工作者和创新团队的稳定支持力度,以加快培育促进科技事业健康发展”。从这个角度来说,对科研人员尤其是优秀科研人员活动机制的研究也是为了对科学事业的进一步发展提供更好的政策指导与支持。
因此,有必要在实施国家科技发展战略的大环境下,对科研人员尤其是优秀科研工作者的科研学研究活动的特征进行细致地探索与分析。由于知识的发展是连续的、流动的和多领域交叉的,科研人员所研究主题的变化反映了信息收集与知识传递的不断变化[5]。另外,近年来科学知识迅猛发展,新问题、新知识层出不穷。有鉴于此,笔者尝试结合科研人员职业高峰与研究主题两个维度,分别从自然科学、社会科学、艺术与人文科学中选择不同学科领域的数据,采用自然语言处理(NLP)方法,从科研人员职业高峰的视角对科研人员所研究主题的变化进行具体分析,以期对科研人员以及精英学者们在职业高峰前后研究主题的变化特征取得更清晰的认知和更深入的洞见。
2相关研究现状
了解科学家个体研究活动机制及其学术生涯过程中的重要里程碑,有助于深入探索科学生产力的动态模式。从社会学理论来讲,年轻科学家作为学术界的“边缘人”,在特定想法或学术流派中的投入尚少,没有积累较多的声誉,因此不用过分担心科研失败带来的损失,往往也更容易做出成绩,同时年轻科学家善于从新视角去看待老问题,他们兴趣更为广泛、精力更加充沛、学术热情更高,尽管他们缺乏经验,但研究原创性高。
年老科学家虽在研究经验的积累、独立判断、处理矛盾等方面更胜一筹,但他们缺少热情,会产生许多没有灵感的作品也就不容易做出重大突破[6,7]。B.F.Jones等[8]通过对诺贝尔奖学者的职业生涯研究,发现富有想法的年轻人更容易在硬科学(hardscience)研究中做出重大突破。此外,学术界有许多研究工作对科研人员的职业高峰及其所对应的科研成就展开了研究[9-12]。
这些研究工作虽然对科研人员的学术生涯发展给予了高度重视,但是对职业高峰的界定并不统一,研究视角也相对单一,并没有关注伴随科研人员职业高峰的科研工作发生了怎样的变化。在2020年最新的一项研究中,研究者在证实诺贝尔奖得主比其他科学家在学术生涯早期就拥有更多的发文量与更高的被引量的同时,还发现了获奖后得主们科研成果影响力下滑的短暂的“诺贝尔低谷”(NobelDip)现象[13]。
这意味着科研人员在经历了职业高峰之后,在具体的科学工作中会发生一些有趣的变化。其中,科研人员职业高峰前后研究主题的变化成为学术界关注的一个问题。具有前瞻性的主题可能会促使高影响力研究成果的产生,这不仅可以提高科学家的声誉,也可以给整个领域创造研究机会。鉴于研究主题对科研人员个体学术生涯以及对学科和创新政策的影响,迫切地需要采取定量方法来理解科学家们在整个学术生涯中其研究主题是如何变化的[14-16]。
近年来,国内外学术界均有学者聚焦于量化和模拟科学家学术生涯中研究主题的演变[17-20]。尽管研究主题的频繁变化可能会带来失败和生产力下降的风险,但是也有研究表明一个稳定而又有重点的研究团队虽然有助于科学家保持生产力,但却不利于创新[21,22]。
通常而言,科研人员在其学术生涯过程中所研究的主题内容不可能是一成不变的,科学家转换自己的研究主题可能是在保守与冒险之间权衡的结果[23]。A.Hoonlor等[24]选择计算机领 域的期刊与会议论文进行分析发现,科学家的研究重点大约以10年为一个周期发生变化,只有少部分研究者在同一主题年复一年地长期发表文章;A.Rzhetsky等[25]将学科知识建模为网络。
通过分析发表在30多年内的数百万篇生物医学论文发现,生物医学领域的科学家越来越追求保守的研究策略,倾向于探索中心主题的局部邻域而不是进行大跨度的主题转换;T.Jia等[26]则以物理学领域的分类代码为依据,发现物理学家的研究兴趣从学术生涯的开始到学术生涯的结束,其间发生了极大的转变;A.Zeng等[27]在最近的一项研究中发现,如今的科研人员相比更早的研究者更频繁地在不同主题之间切换,并且学术生涯早期的高转换率与较低的整体生产力有关。
综上,学术界关于科研人员职业高峰与学术生涯中研究主题转换的相关研究已经分别积累了一定的成果。但在现有的研究中,鲜有学者将科研人员个体职业高峰与其研究主题转换联系起来进行分析。有鉴于此,笔者从自然科学、社会科学、艺术与人文科学3个学科领域中分别选取代表性学科,对科研人员以及精英学者们学术生涯中不同阶段的研究主题变化特征进行深入研究,以期为揭示科学生产力发展机制提供可资借鉴的参考。
3相关理论基础
3.1科研人员研究主题识别
识别科研人员的研究主题,主要是通过对其已发表的成果文献进行自然语言处理(NLP),从中发现大型文档集合中的潜在语义结构,通常也被称为主题分类。当前应用最广泛的主题建模方法包括概率潜在语义分析(probabilisticlatentsemanticanalysis,PLSA)[28]和隐含狄利克雷分布(latentdirichletallocation,LDA)[29]等方法。
尽管这些建模方法在学术研究中很受欢迎,但也存在一些缺陷。比如为了使模型达到最佳效果,在建模之前通常需要做一些预处理,如自定义停用词列表、进行词干提取、词元化以及花费大量精力去预先设置合适的主题数量等。此外,大部分主题建模方法依赖于文档的词袋表示,忽略了单词的顺序和语义。为了克服这些缺陷,笔者采用2020年最新提出的Top2Vec[30]主题建模方法对科研人员公开发表的文献进行主题建模以识别其研究主题。
Top2Vec作为一种分布式主题向量模型,它利用文档和单词的语义嵌入来寻找主题。在语义空间中发现的文档密集区域的数量被认为是突出主题的数量。其中,主题向量是从文档的密集区域中计算出来的,密集区域是由非常相似的文档组成的,通过计算“质心”(centroid)来得到主题向量,即同一密集簇中所有文档向量的算术平均值。
“质心”能够很好地代表文档密集区域的主题向量,最接近这个主题向量的词也就是在语义上能够最好地描述它的词。最终得到的主题向量与文档和词向量的共同嵌入,词向量之间的距离表示语义相似度。Top2Vec生成的主题也被证明比概率生成模型具有更大的信息量以及包含更具有代表性的语料。该模型不需要去停用词,也无需进行词干提取和词元化等预处理,它可以自动查找主题数量。
3.2主题相似性和主题转换概率
笔者选取主题相似度得分和主题转换概率两个指标来测量科研人员研究主题的变换情况。相似度得分可以衡量科研人员在不同主题转换过程中到底进行了多大幅度的主题迁移;主题转换概率用于判断科研人员研究主题转换频率的高低。研究工作采用余弦相似度计算主题间的相似性得分,该方法已经被证实是当前自然语言处理中应用最广泛的语义距离测度方法。
4研究方法与流程
4.1数据来源与流程框架
在多学科视角下(自然科学、社会科学、艺术与人文科学)探测科研人员高峰期前/后的科研主题变化特征,需要在以往仅针对某单一学科领域的基础上考虑更多的因素。针对单一学科的研究无需考虑文档数量因素,但多学科视野下学科间差别悬殊的文档数量可能会给主题建模与统计结果造成偏倚,不利于学科间的横向比较。基于这一原因,笔者选取了真菌学、图书情报学、哲学3个在文档数量上大体相当的学科分别作为自然科学、社会科学、艺术与人文科学的代表。
以WebofScience核心数据库作为基础数据来源,采用高级检索,检索式分别为“SU=MYCOLOGY”“SU=INFORMATIONSCIENCE&LIBRARYSCIENCE”“SU=PHILOSOPHY”,检索日期为2020年11月1日,检索时间段为1985年至今,将文献类别限定为“Article”,语种限定为“English”,最终获得158446篇文献。
其中,真菌学文献43000篇,图书情报学文献65961篇,哲学文献49485篇。在此基础上,进一步提取文献中所包含的作者,并按照所属学科进行分组。根据ORCID标识符对重名作者进行人工核查且不重复计数,共得到266388位作者。其中,真菌学113241位,图书情报学106730位,哲学46417位。
此外,考虑到原Top2Vec算法所依赖的TensorFlowText安装包对Windows系统的限制,因此为了使研究方法具有更好的泛化性和研究复现性,笔者在深度学习PyTorch框架下使用基于Top2Vec的主题建模方法。相比于原本的Top2Vec建模方法,不仅保留了原模型的内核,同时具有更好的系统兼容性。传统认知下,重要奖项、高水平成果等都可以作为科研人员职业高峰的标志。但学术界中重要奖项凤毛麟角,不足以据此考量更广泛的科研人员队伍。且奖项更侧重学术界对此前成就的认可,而不是科学研究本身在获奖时达到最高峰。
因此,学术界主要采用高被引论文作为识别科研人员职业高峰的依据,特别是针对长时间周期某单一学科进行研究时,主要采用设定统一年限(如10年)内的引文频次[3,32]。考虑到本研究对象跨越3个学科门类,且论文半衰期(halflife)受到文献类型、学科性质等多方面因素的影响,不适合采用统一年限内的引文频次作为标准,加之“睡美人”文献等因素的影响,笔者使用绝对被引频次最高的论文作为科研人员职业高峰的标志,并将最高被引发表当年视为该科研人员达到职业高峰。
5研究结果
5.1主题相似性与转换概率的宏观分析
为保障实验结果的有效性,研究工作对此前得到的266388位作者进一步筛查。首先删除具有缺失值的数据,其次选取发表文献数不低于5篇的科研人员。最终得到真菌学作者5427位,图书情报学作者3912位,哲学作者1371位。将科研人员被引频次最高文献的发表作为判定其达到职业高峰的标准,以科研人员最高被引文献发表当年为职业高峰期(CareerPeak,CP)。
5.2精英学者高峰期前后主题转换特征
各学科的精英学者通常是所在学科科技进步的领军力量。在学术界已经关注到精英学者与普通学者在学术生涯与创造力上的差异的同时[33],政府也出台政策加大对科技拔尖人才与优秀科技工作者的鼓励与支持[4]。这部分研究进一步探查精英学者在职业高峰期前后研究主题的转换特征,以期为国家科技政策的制定与实施提供科学依据。目前,学术界对精英学者的识别往往根据其科研成果贡献数量(高发文)、被学术界认可程度(高被引)等指标加以判识。
在具体的研究中,兼顾发文量与被引量指标筛选各学科发文数量排名前1%,且单篇论文平均被引频次排名前1%的学者。同时,为使结果具有普遍性,不考虑“一闪即逝”的科研人员,确保从事科学研究不小于10年的高发文且高被引科研人员作为领域精英学者展开分析。按照上述标准进行筛选,获得真菌学精英学者170位,图书情报学精英学者246位,哲学精英学者97位。如果说前序的分析关注科研人员在每个时段内的研究主题转换幅度与频繁程度,那么这部分研究则更关注精英学者在以职业高峰为分界线的前后两个阶段的研究主题转换的差异。
6结论与讨论
笔者采用文献计量学与文档主题建模相结合的方法,对真菌学、图书情报学和哲学3个学科科研人员职业高峰及其相关的研究主题转换特征进行探索。综合上述分析的结果,初步得出以下结论:
(1)科研人员总体上在经历职业高峰之后主题转换会更频繁。在针对科研人员总体的分析中,尽管职业高峰前后的主题相似度差异并不明显,但是主题转换概率这一指标却体现出职业高峰前后的明显差异。各学科的科研人员在经历职业高峰期之后的主题转换率要不同程度地高于职业高峰期之前的主题转换率。这一结果说明就科研人员的总体而言,未达到职业高峰期的科研人员其研究主题转换并不频繁,而经历过职业高峰期之后,科研人员研究主题的转换比高峰期之前更频繁。
(2)精英学者在经历了职业高峰之后其研究主题会更加专一。精英学者高峰期前后的主题相似度表明,大多数精英学者在职业高峰期前后的研究主题具有很高的相似性,并且高峰期之后的主题转换概率相比高峰期之前更低。这一结果说明,科研人员中精英学者的主题转换表现出与科研人员总体队伍近乎截然相反的特征:越是在科学研究中表现优秀的精英学者,越在经历职业高峰之后倾向于更加专一的研究方向,其研究主题也越发青睐于“十年磨一剑”。
在科学技术飞速发展的今天,发现和揭示科研人员学术生涯发展过程中的模式与特征,有助于揭示科学生产力发展机制,对于科研管理部门制定积极的科研政策,更好地引导科研人员实现科技创新,具有重要的促进作用。研究中也存在一些不足之处,在自然科学、社会科学、艺术与人文科学中各选择一个学科作为代表,尚不足以覆盖更大范围的科学研究领域。通过主题建模及主题相似度测度科研人员主题转换偏重语义信息,对于更细密的学科与研究方向分类体现尚不完全充分。未来的研究中,将进一步包容更广泛的科学领域,采用更细致的分析方法展开更深入的研究。
参考文献:
[1]周建中,闫昊,孙粒.我国科研人员职业生涯成长轨迹与影响因素研究[J].科研管理,2019,40(10):126-141.
[2]MERTONRK.Themattheweffectinscience[J].Internationaljournalofdermatology,1968,27(3810):56-63.
[3]LIUL,WANGY,SINATRAR,etal.Hotstreaksinartistic,cultural,andscientificcareers[J].Nature,2018,559(7714):396-399.
[4]中共中央,国务院.关于进一步弘扬科学家精神加强作风和学风建设的意见[EB/OL].[2021-07-18].http://www.gov.cn/zhengce/201906/11/content_5399239.htm.
[5]RUANW,HOUH,HUZ.Detectingdynamicsofhottopicswithalluvialdiagrams:atimelinevisualization[J].Journalofdataandinformationscience,2017,2(3):37-48
作者:陈立雪滕广青吕晶庹锐
转载请注明来自发表学术论文网:http://www.fbxslw.com/jjlw/28190.html