国内外引文内容分析研究进展

所属分类：文史论文阅读689次时间：2021-11-20 11:02

本文摘要：摘要:[研究目的]引文内容分析是图书情报学科经典的定性研究方法,对引文内容分析的研究与应用现状进行梳理与总结,为未来的研究提供参考。[研究方法]在Scopus数据库中,以citationcontentanalysis、contentbasedcitationanalysis、contentcitationanalysis、in-textcitati

　　摘要:[研究目的]引文内容分析是图书情报学科经典的定性研究方法,对引文内容分析的研究与应用现状进行梳理与总结,为未来的研究提供参考。[研究方法]在Scopus数据库中,以citationcontentanalysis、contentbasedcitationanalysis、contentcitationanalysis、in-textcitationanalysis等关键词进行检索,在CNKI数据库中以引文内容分析、引文语境分析、文内引文分析等关键词检索,采用人工筛选的方式获得文献87篇文献,从引文文内特征、引文语义关系、引文内容本体、应用和研究框架等5个方面对当前研究进行了总结和评述。[研究结论]引文内容分析能够揭示引文之间深层次的语义关系,并作出客观、科学的学术评价结论,但引文关系非常复杂,涉及引用目的、引用动机、引用情感、引用功能等多个因素。对于引文间语义关系的研究,在生物医学领域缺乏具有统一的规范化的界定和框架。从应用角度来看,利用自然语言处理和深度学习技术实现自动引文情感分类,以识别出具有可重复价值的临床研究文献进行推荐,区分出不可重复的临床实验,从而避免医学资源浪费是非常有意义的。基于知识实体的引文内容分析给学术评价和科研管理带来了新的活力,将知识图谱和引文内容分析的有机结合能够实现智能化知识发现,是值得进一步探索的方向。

　　关键词:引文内容分析;引文语义关系;引文内容本体;引文分类;学术评价

引文分析

　　在科学研究评价中,引文分析是最为重要的一种评价方法,在期刊评价、世界高校排名中引文数据都是重要的参考依据。在文献计量分析中,对研究论文影响力的测度通常是通过引文进行的,例如文献被引频次、期刊影响因子[1]、H指数[2]、g指数[3]等定量计算方法。

　　引文分析方向投稿知识：引用率高的论文水平就高吗

　　传统的引文分析方法,只能揭示两篇文献之间的引用和被引关系,所有引文均等同视之,没有根据引文的重要性进行区分,不能说明被引文献对于施引文献的具体作用和价值,也没有考虑到作者在引文文献时的情感态度,这种评价难以真实反应被引文献的内容和质量水平。Metron曾提出引文规范性理论[4],他认为引文是用于偿还智力债务的一种形式,是对前人智力成果的褒奖或信誉加分,然而随后有研究发现,存在大量的引文行为并没有遵循这种规范,其意图甚至与之相悖[5],Gilbert也质疑莫顿的规范性假说过于理想化,他认为作者引用某篇权威文献是为了支持自己的观点和结论[6]。

　　其实作者在引用文献时经历了一个复杂的过程,涉及到引用动机、引用目的和引用情感等多个方面[7],作者往往有多种理由去引用文献,而不同引文在学术交流的过程中也会发挥不同的功能。引用行为让施引文献和被引文献之间产生了紧密的联系,但这种关系不仅限于引用和被引,还存在更加复杂的语义关联,例如Catalini等[8]利用自然语义处理技术对JournalofImmunology期刊中的负面引文进行实证研究,发现了负面引用与高质量论文之间存在联系。

　　随着对引文内容分析研究的深入,研究者正在积极探索将引文内容在学术评价中的作用。引文内容分析能够深入的挖掘施引文献和被引文献之间的语义关联,因为引文文本是作者在引用文献时做出的评价和解释,承载了作者引用该文献的目的和情感偏向,通过对引用语境或引用内容进行分类分析能够揭示文献引用的深层次语义内涵,从而更好地对论文质量进行评价。引文分析是图书情报学科的经典研究方法之一,因此本文对已有的基于内容的引文分析研究进行梳理总结,重点介绍目前引文内容分析领域的研究进展和研究框架,追踪新的研究热点,并分析其存在的问题,以期为学术评价和知识关联领域提供新的视角。

　　1数据收集

　　我们在Scopus数据库中利用“题名-摘要-关键词冶途径进行文献检索,采用的检索式如下:TITLEABS-KEY(“citationcontentanalysis冶)ORTITLE-ABS-KEY(“contentbasedcitationanalysis冶)ORTI鄄TLE-ABS-KEY(“contentcitationanalysis冶)ORTI鄄TLE-ABS-KEY(“in-textcitationanalysis冶)ORTI鄄TLE-ABS-KEY(“citationrelation冶),不限定年代,共获得文献205篇。

　　在CNKI数据库中利用“篇关摘冶途径进行检索,检索式如下:TKA=引文内容分析ORTKA=引文语境分析ORTKA=引文上下文分析ORTKA=文内引文分析ORTKA=引文语义关系ORTKA=引文分类ORTKA=引文本体,不限定年代,共获得文献50篇。然后通过人工阅读题名和摘要,排除引文网络分析、文献计量分析等具体应用案例文献,最终获得87文献供进一步分析。

　　2传统的引文分析

　　科学是一个包含研究者、项目和成果的巨大网络,而引文则是将这些节点联系起来的连线。为了及时追踪科学前沿,了解文献及科学发展动态,1955年,Eu鄄geneGarfield提出了科学引文索引(CitationIndexesforScience)[9],随后在1963年开始编制和出版科学引文索引,该索引建立之初是用于检索和追踪科学文献信息,但随后发现引文数据对于文献和期刊层面的评价起到了重要的促进作用,因此有学者利用文献获得的引用次数来评价该文献的影响力和质量,利用学术期刊的影响因子来评价期刊的重要性。随着WebofScience、PubMed、Scopus、GoogleScholar、MicrosoftAcademic等电子文献数据库的出现,文献的引用和传播路径得到了极大的扩展。

　　对于个人研究者而言,利用引文分析可以发现更多的相关文献,提高检索效率。而对于学科层面,利用引文分析能够对科学活动和行为进行评价。近些年,替代计量学的出现为弥补了传统文献计量的不足,为引文分析提供了更多的统计指标,例如读者阅读数量、微博评论数量等。引文分析在科学地图绘制、识别研究前沿和热点、学术评价、影响因子、论文质量评价等领域取得了重要的理论和实践成果,但传统的引文分析大多依赖于引文数据库的构建,这种模式存在诸多问题:(1)将所有引用等同视之;(2)仅考虑引文频次或参考文献数量;(3)难以揭示施引文献和被引文献之间的深层次的语义关系。

　　3引文文内特征研究

　　传统的引文分析从数量上考察引文的影响力,并不把引文文本信息作为研究对象,而引文文本分析则同时考虑定性和定量因素[10]。

　　引文文本一般是指引文标识所在的句子或与其上下文句子的集合[11],它能提供施引文献与被引文献之间关系的重要信息。在引文文本分析中有两个重要的相似概念:引用语境(cita鄄tioncontext)和引用内容(citationcontent),根据Al鄄jaber[12]的观点,引用语境是指在施引文献对被引文献的描述性和评论性文字,而引用内容则是指对被引文献内容的描述。ZhuXD[13]也曾提出,当施引文献中提及一篇参考文献时,出现在该文献引文标识附近的文本可当作引用语境。

　　引文标识是构建引用内容的基础,引文标识周围的词语、语义内容、甚至是隐含内容都是引用内容的一部分[14]。引用内容分析和引用语境分析的目的也是不同的,前者是通过引文标识周围的语义含义了解和评价被引文献的内容特征,而后者旨在研究作者的引用过程,包括引用动机和原因[15]。为了在评估学术成果时找到更加准确的文献计量学方法,越来越多的学者开始关注基于内容的引文分析。从20世纪50年代开始,基于内容的引文分析主要从引文窗、引文分布两个方面开展。

　　3.1引文窗的研究

　　引文内容包含了施引文献和被引文献之间关系的重要信息,关于引文内容的范围界定虽然没有统一定论,但有很多学者提出了重要的观点。2008年Ritchie[16]认为位于引文标识附近的词语是能够反映被引文献内容的,并定义了9种引文内容,分别是淤不包含任何引用内容,于仅包含施引句子,盂包含下一句引文之前的1个句子,榆包含施引句子以及该句子的前后两句,虞包含下一句引文之前的3个句子,愚包含引文标识左右共50个单词,舆包含引文标识左右共70个单词,余包含引文标识左右共100个单词,俞包含完整的施引文献。后来的研究者发现基于句子的方法比基于单词数量的方法能更好地识别引文内容。2012年,Athar[17]建议使用四句话作为合适的引文窗,即引用的句子、引用句子前面的1个句子、引用句子后面的2个句子。

　　较长的引用内容包含了更多的描述性词语,因此能够更好地揭示被引文献的内容。很多学者也将四句话的引文窗作为引文内容分析的金标准[18]。2017年,国内学者章成志等[19]通过对Morgan&Calypool出版的39本学术专著的引文内容进行标注,发现专著中引文及其上下文的平均长度(单词数)在20-30之间,与学术文献的结果比较接近。随着机器学习在文本分析中的应用,引文内容的自动分析有了新的进展,雷声伟等[20]发现在进行引文上下文识别任务中,用于文本分类的支持向量机(SupportVectorMachine,SVM)比序列标注的条件随机场(ConditionalRandomField,CRF)方法更加有效。

　　4引文的语义关系研究

　　引文内容的语义关系分析主要在引用语境和引用内容的分析的基础上,从引文的动机、引文的功能、引文的重要性三个方面开展。

　　4.1引用动机研究

　　引文动机是作者在引文文献时的内在心理活动,反应了引用文献的原因和目的,即为什么要引用文献。有学者认为引用文献的主要动机是说服读者[6],或者通过引用已有成果来增加说服力和提高权威性[27]。学者们希望通过分析和确定文献被引用的具体原因,从而判断作者的引用动机和目的。

　　1964年,EugeneGarfield[28]列举出了15项作者引用文献的理由,但是他并没有深入分析各项理由的出现频率。该分类体系广泛而抽象,适用于不同领域,但是分类目之间存在重叠性,如“向先驱者致敬冶和“确认该出版物讨论过某种理念或者概念冶,也没有关于“使用前人研究数据、方法或成果冶的类目,但是该分类标准为后续研究奠定了基础。

　　5引文内容本体研究

　　5.1将引文作为实体类的本体

　　很多信息学相关的本体都将引文(citation)当作一个重要的实体,通过在Ontobee数据库检索,发现有18个本体包含了cita鄄tion实体,并共用一个IRI(http://purl.obolibrary.org/obo/IAO_0000301)。在LinY等[53]发布的InformedConsentOntology本体中,实体citation的定义是“一种用于标识特定出版物的文本实体冶,没有下位实体,且通过对象属性isabout与文档实体(document)产生关联,同位类还有文档题目(documenttitle)、表格(ta鄄ble)、书写名字(writtenname)等,其父类为文本实体(textualentity)。

　　在SemanticscienceIntegratedOntolo鄄gy本体中,引文类的定义为一种文本实体,它表示在参考文数目或者参考文献部分中描述的文献来源。同样没有子类,其父类是文档部分(documentcompo鄄nent)。还有一些本体考虑到了引文的特殊功能,例如在NCIThesaurusOBOEdition本体中,将引文说明(cita鄄tiondescription)定义为一种可接受格式的参考书目。

　　其子类包括临床研究引文(ClinicalStudyCitation)、研究结果引用说明(ReferenceToStudyResultsCitationDescription)、研究参考引用说明(StudyReferenceCita鄄tionDescription)。而在Eagle-iresourceontology本体中,定义了引文管理对象(citationmanagementobjec鄄tive)和引文总频次(globalcitationcount)两个实体。此外,书目参考文献本体(BibliographicReferenceOn鄄tology,BiRo)[54]能够描述单个参考文献以及它与被引文献之间的关系,BiRo种定义了“isreferencedby冶和“reference冶两个对象属性,但是没有涉及引用动机或者理由。在以上本体的结构中,虽然涉及到了引文实体,但是没有进一步深入引文本身,调研中我们还发现了部分本体的构建中,考虑到引文间语义关系、引用行为或引用过程。

　　6引文内容分析对临床试验评价的意义

　　在生物医学领域,引文内容分析和情感分析对于临床试验价值的判断具有重要的意义。可重复性和可预测性是科学研究的两大特质,在过去的十年内,随着学术文献的爆发式增长,科学研究的可复现性成为了重要的议题,在很多医学科学出版物发现存在大量不可重复的研究(Non-reproducibleStudy),美国生物医药巨头安进公司Amgen曾指出,在顶级肿瘤学期刊发表的论文中,有88%的研究结果是不可复现的[59],Io鄄annidis等人估计在生物医学领域不可重复研究可能占到80%[60,61],而研究中出现的错误、行为不当或者欺诈是导致临床试验结果不可再现的主要原因,目前有越来越多的研究论文由于实验不可重复性而被杂志撤回。

　　FavresseJ等[62]曾警示临床医生和医学实验人员,参考这些不可重复的研究结果可能会误导临床决策。因此,尽可能早地发现和识别更多的可重复性低或者存在缺陷的论文,防止科研资源浪费是非常重要的。引文文本中包含了作者引用该文献的目的和情感偏向,因此科学研究的可重复性可以通过施引文本中的总体情感来评估和判断,引用内容和引用情感分析是评价临床实验可重复性价值的重要步骤。

　　7引文内容分析研究框架

　　从上述研究可以看出,随着开放科学运动的兴起以及自然语义处理技术的迅猛发展,引文内容分析已从语法分析层面不断地向语义分析层面深化。语法层面的引文内容分析利用文献的结构和布局来确定引文的位置和数量,基于此对引文影响力进行评估;而语义层面的引文内容分析需要通过解析文本内容制定分类框架,以此对引用行为进行判定。根据已有的引文分析研究体系,并借鉴ZhangGuo[63]的理论框架,我们归纳出了引文内容分析的研究框架。

　　语法层面的引文内容分析通常关注单句引文,例如引文窗的研究涉及引文内容和引文语境的界定、引文内容的抽取,而在引文影响力的评估中,不同的引用方式反应了作者对引用的重视程度,例如简单提及、详细解释和直接引用这三种方式的引文重要性逐渐提高。但是引文内容的语法分析往往并不涉及引文的具体内容,难以挖掘深层次的语义关联。事实上引用是一个由主观因素触发的内在复杂行为,它是作者通过理性、权衡的形式做出的高性价比选择。因此,通过预定义的引文分类体系,推断出引用行为的动机、目的、情感和功能是非常有意义的研究方向。随着线性判别分析、主题模型、词向量等技术的应用,文献之间的语义相关性判别变得更加高效,产生了引文推荐预测、自动引文摘要等重要的研究方向。

　　8结语

　　本文对引文分析的发展历程、引文文内特征、引文语义关系和引文内容本体的研究进行了梳理总结。此外,还提出了引文内容分析的研究框架。传统的引文内容分析方法将所有引文等同视之,难以揭示引文之间的深层次语义关系并作出客观、科学的学术评价结论,在二十世纪中叶,得益于数据挖掘和自然语言处理算法的进步,引文内容分析逐步从人工化、小规模、少样本的模式向半自动化、大规模、海量样本的模式蜕变。而引文关系非常复杂,涉及引用目的、引用动机、引用情感、引用功能等多个因素,不同学科间存在差异性,单一体系很难详尽阐释引文关系的内涵,随着新媒体时代的发展,引文语义关系呈现出演进与变化趋势。

　　对于引文间语义关系的研究,目前学界缺少系统性描述和定义,尤其是生物医学领域,虽然有从修辞角度研究引用关系的,但尚无引文语义关系与文本分类相关本体,缺乏具有统一的规范化的界定和框架。从应用角度来看,引文内容分析以及广泛应用于科研行为评价、科研数据管理、信息检索、自动摘要、引文推荐和预测、学术传播和知识挖掘等研究方向。

　　具体来说,在临床医学领域,利用自然语言处理和深度学习技术实现自动引文情感分类,以识别出具有可重复价值的临床研究文献进行推荐,区分出不可重复的临床实验,从而避免医学资源浪费是非常有意义;此外,文献是知识的载体,在学术评价和管理过程中,应该将评价对象进一步细粒度化为文献中包含的知识实体,这些实体包括但不局限于数据集、知识元、方法、工具和理论等,因为这些知识实体是引文内容中的核心,是作者具体的引用对象。

　　可以预见,基于知识实体的引文内容分析和计量分析将赋予文献计量分析范式转移的巨大势能,而EugeneGarfield的引文索引网络可以进一步演化为知识实体引用关系网络,对于开展学术史研究的人员,能够更细粒度地梳理学科发展历程中的知识流动和演进;2012年Google提出知识图谱这一新的知识表示模式,产生了大量的概念驱动或实体驱动的图谱,而数据集、视频、网页、博客等非著作型的引文内容由于具有数字资源可定位性、唯一性,更加适合利用知识图谱的方式进行引文内容分析,如何更好地将这些实体引文图谱与其他开放资源产生关联,并实现智能化知识发现是未来值得进一步探索的方向。

　　参考文献

　　[1]GarfieldE.Citationanalysisasatoolinjournalevaluation[J].Science,1972,178(4060):471-479.

　　[2]HirschJE.Anindextoquantifyanindividual'sscientificre鄄searchoutput[J].ProceedingsoftheNationalAcademyofSci鄄encesoftheUnitedStatesofAmerica(PNAS),2005,102(46):16569-16572.

　　[3]EggheL.Theoryandpractiseoftheg-index[J].Scientometrics,2006,69(1):131-152.

　　[4]MetronR.TheSociologyofScience:TheoreticalandEmpiricalInvestigations[M].UniversityofChicagoPress,1973.

　　[5]GerasA,SiudemG,GagolewskiM.Shouldweintroduceadis鄄likebuttonforacademicarticles?[J].JournaloftheAssociationforInformationScienceandTechnology,2020,71(2):221-229.

　　[6]GilbertGN.ReferencingasPersuasion[J].SocialStudiesofSci鄄ence,1977,7(1):113-122.

　　作者：周志超