国内或国外 期刊或论文

您当前的位置:发表学术论文网文史论文》 基于深度学习算法的学术查询意图分类器构建> 正文

基于深度学习算法的学术查询意图分类器构建

所属分类:文史论文 阅读次 时间:2021-03-24 10:34

本文摘要:摘要:[目的/意义]实现学术查询意图的自动识别,提高学术搜索引擎的效率。[方法/过程]结合已有查询意图特征和学术搜索特点,从基本信息、特定关键词、实体和出现频率4个层面对查询表达式进行特征构造,运用NaiveBayes、Logistic回归、SVM、RandomForest四

  摘要:[目的/意义]实现学术查询意图的自动识别,提高学术搜索引擎的效率。[方法/过程]结合已有查询意图特征和学术搜索特点,从基本信息、特定关键词、实体和出现频率4个层面对查询表达式进行特征构造,运用NaiveBayes、Logistic回归、SVM、RandomForest四种分类算法进行查询意图自动识别的预实验,计算不同方法的准确率、召回率和F值。提出了一种将Logistic回归算法所预测的识别结果扩展到大规模数据集、提取“关键词类”特征的方法构建学术查询意图识别的深度学习两层分类器。[结果/结论]两层分类器的宏平均F1值为0.651,优于其他算法,能够有效平衡不同学术查询意图的类别准确率与召回率效果。两层分类器在学术探索类的效果最好,F1值为0.783。

  关键词:学术查询意图自动识别两层分类器

图书馆学研究

  1 引言

  随着科学文献等学术资源的爆炸增长[1],为快速获取学术信息、方便学习生活、提高科研工作效率,专业学术搜索引擎从面对少量专业用户发展为面向大量的、不同类型的用户;从面对单一的科研需求发展为面向复杂的多样性需求[2]。与此同时,由于学术数据库(WebofScience、CNKI等)的检索系统的专业化,各数据库间不能共享互联,“一站式”学术搜索引擎如百度学术、谷歌学术成为学术查询的首选[3-4]。

  由于用户的学术背景和学术能力不同,在进行学术查询时其需求往往不同。对于使用学术搜索引擎的科研用户,其需要多样化的学术信息,了解研究进展、追踪研究前沿,简短的查询表达式并不足以准确表达其学术查询意图;对于学术新手或非科研用户使用学术搜索引擎时,因其对相关学术领域的了解较浅,进行学术查询时的关键词并不准确,从而不能获取精准的学术信息。

  学术查询意图为用户进行学术搜索时通过查询表达式所表达的用户信息需求。现有的学术搜索引擎多为基于关键词匹配的搜索技术,不能识别学术查询语句的查询意图,而通过对学术查询意图的识别,可为进一步优化学术搜索结果、提高检索效率、节约用户时间,使得用户的学术搜索体验得以提高、获取更精准的学术信息。  查询意图自动识别多采用文本分类的算法,研究人员通常针对一个分类算法,通过组合不同的特征,试验查询意图识别的效果。实验的基础是查询意图的类目体系,而针对学术查询意图的分类大多在普通查询意图的基础上展开,缺乏学术查询意图的专门类目体系,在此基础上,本文的前序基础研究构建了学术查询意图类目体系,共分为5类:

  (1)学术文献类:指用户通过查询式获取某篇特定的学术出版文献,如通过学术文献的标题构造查询式进行查询。  (2)学术实体类:指用户通过查询获取学术实体的相关信息,如科研机构实体“山东省农业科学院作物研究所”。  (3)学术探索类:指用户在某个领域进行探索性查询,需多次交互查询才可获取所需的学术资源,如对学术概念词“神经网络算法”进行查询等。 (4)知识问答类:指用户通过查询获取某个特定问题的答案,如“亚急性甲状腺炎治愈后会复发吗?”等问题。  (5)非学术文献类:指用户通过查询希望获取一些政策、行业报告等非学术文献,如查询“汽车下乡的政策”等。  为了适度提高学术查询意图分类的召回率,本研究构建了基于Logistic回归算法的两层分类器来实现学术查询意图的自动识别,提出了适用于学术查询意图识别的4个特征:基本信息、词中信息、实体信息和出现频率,并在百度学术查询日志数据集进行测试和评价。

  2 相关研究

  关于学术查询意图识别的研究较少,多为面向图书查询的意图识别研究或应用,如胡伶霞[5]将图书检索的查询意图分为单意图与多意图并利用词典对检索词进行分类,李兵[6]借鉴与完善胡伶霞[5]的图书检索的查询意图体系用以提高图书分面检索的效果。针对学术查询意图识别研究较少且多聚焦在图书查询意图研究这一现状,考虑到学术搜索是搜索的一个特定垂直搜索子领域,因此可借鉴综合搜索引擎中的用户查询意图识别研究。

  以综合搜索引擎中的用户查询意图为研究对象的查询意图识别分类方法可分为人工识别方法[7-8]和自 动识别方法[9]。由于查询意图人工识别成本较大,多数研究采用自动识别方法,涉及的分类特征以及分类算法归纳如下:

  2.1 查询意图自动识别的分类特征来源

  查询意图自动识别的分类特征来源包括“搜索引擎检索结果的点击行为、用户查询表达式”等。J.Brenes等[10]指出用户的点击行为是查询意图分类的最有效特征,但点击行为数据涉及用户隐私,存在获取权限的问题,仅有Y.Liu等[11]的实验中利用了点击分布作为特征进行查询意图识别。研究人员大多通过对查询表达式进行分析以获取综合搜索中查询意图的分类特征,可归纳概括为“基本信息、词中信息和实体信息”三类。

  (1)基本信息:指查询表达式的长度、词项个数、词项长度等基本信息,比如N.Belkin[12]通过实验得出查询表达式词长为2以下的意图大概率为导航类,词长越长的查询表达式为信息类查询的概率越大。  (2)词中信息:指查询表达式中所含的词汇信息。研究者们对该类特征的研究较多,比如B.Jansen[13]和M.Herrera[14]先后总结了英文综合搜索中关键词特征与查询意图的对应情况;张晓娟[15]总结了中文综合搜索查询中不同意图类别查询的特征词。针对学术搜索,M.Khabsa等[16]通过对学术搜索引擎CiteseerX的查询意图分析,总结了学术搜索中导航类查询的特征词,例如是否包含年份、是否包含标点符号、是否包含停用词等。尽管利用查询表达式中的词汇信息作为特征的方法比较简单,但众多研究的结果表明该类特征对查询意图的识别较为有效。

  (3)实体信息:指查询表达式中所含有的实体信息,比如张晓娟[15]将实体与查询意图进行分类对应,总结出导航类查询中的实体多为人名、地名、机构名,资源类查询中实体多为游戏名、歌曲名等;Y.Chang等[17]将实体的自然语言处理结果作为分类的特征。

  2.2 查询意图自动识别算法

  查询意图自动识别算法采用基于查询表达式特征的方法对查询意图进行识别,其本质上是一种文本分类方法,在进行分类器选择时,研究者往往会根据实验数据集、实验数据特征和具体分类任务的情况选择不同的分类算法,如SVM、决策树、PLAS等,例如,Y.Liu等[11]使用典型决策树算法将nCS、nRS和点击分布三种特征结合起来执行识别任务;M.Mendoza[18]利用SVM与PLSA对查询意图进行归类;Y.Chang等[17]提出了使用自然语言处理(NLP)的分析结果作为特征进行查询意图分类的方法,取得了较好的结果。查询意图自动识别的特征与方法大多针对综合搜索引擎,较少关注学术搜索这一垂直细分领域,由于学术搜索的专业性与特殊性,其特征与方法并不能直接适用于学术查询意图的自动识别,需在查询意图识别的基础上进一步扩展,以适应学术查询意图的自动识别。

  3 特征选择与分类器构造

  3.1 学术查询意图的特征提取

  综合搜索中查询意图的特征可从查询词中获得[13],可分为基本信息[12]、词中信息[13-16]和实体信息[15,17]三类,结合学术搜索的特点,可将学术查询意图的分类特征扩展为基本信息、词中信息、实体信息和词汇出现频率的统计特征4个方面。由于百度学术中约占30%的查询表达式为英文,因此学术查询意图分类特征时对中英两种语言进行了综合考量。

  4 实验

  4.1 实验数据

  本研究获得了由百度学术提供的查询日志为实验数据,该日志记录了用户在“百度学术”搜索栏中所有的交互信息,每一条数据记录了用户的唯一标识符(UID)、查询时间(Time)、查询表达式(Query)以及查询IP地址(IP)。数据总量为5414886条,剔除乱码数据、重复数据后,数据总量为3449591条,其中1000条数据已由原论文作者按照前序研究的学术查询意图类目体系标注了相应的类别,本文将这1000条数据作为测试集。 在清洗后的数据集中,笔者随机抽取与测试集不同的4000条数据作为训练集,招募了情报学专业研究生一年级,且有相关标注工作经验的6名同学,将4000条学术查询数据标注为“学术文献类”“学术实体类”“学术探索类”“知识问答类”和“非学术文献类”五个类别。具体过程如下:

  (1)为标注者介绍了标注任务背景、实验逻辑和 其标注的数据集的使用背景。  (2)编写《学术搜索查询意图人工标注指南》,介绍学术查询意图类目体系,以1000条测试集中实例说明了5种学术查询意图的界限,使标注者对查询意图的分类有大体感知。

  (3)每两人一组,独立根据上述要求,对全部分配的数据进行类别标注。前两组每组分配1340条数据,第三组分配1320条,合计4000条数据。允许标注者在产生标注疑惑时可借助百度的查询结果页内容进行判断。  完成人工标注任务后,笔者采用Kappa系数来衡量标注结果之间的一致性,对上述3组的标注结果进行了一致性检验,Kappa值分别为0.776、0.759、0.806。Kappa值均高于0.75,说明标注者之间分类判别的一致性较高。对于标注结果不同的数据,笔者后续召集了所有的标注者对其进行讨论,并按照多数性原则最终类别。

  5 总结与展望

  本研究聚焦学术查询意图的分类研究,通过对学术查询表达式进行分析,基于已有研究对查询表达式从基本信息、词中信息词、实体信息和词汇出现频率的统计特征四个方面进行基础的特征描述,构建了针对学术查询进行查询意图自动识别的两层分类器,并基于大规模数据的分类特征提取了“关键词类”特征。对比其他单层分类器相比,本研究提出的两层分类器在宏平均F1值上取得较好结果,能够有效兼顾不同查询意图类别的准确率与召回率。

  图书馆论文投稿刊物:《图书馆学研究》(ResearchesInLibraryScience)杂志创刊于1979年,由吉林省文化厅主管,吉林省图书馆主办的图书馆学刊物,国际刊号:ISSN1001-0424,国内刊号:CN22-1052/G2,邮发代号:12-205,面向国内外公开发行。

  本研究的不足之处在于,由于针对学术查询意图研究的成果相对较少,缺乏统一的、大规模的评测数据集,因此,本研究的两层分类器效果难以与其他实验结果进行横向对比。下一步将着重推广学术查询意图自动识别的相关数据集,促进不同方法针对学术查询意图的自动识别的横向对比。

  参考文献:

  [1]BORNMANNL,RDIGERM.Growthratesofmodernscience:abibliometricanalysisbasedonthenumberofpublicationsandcitedreferences[J].Journaloftheassociationforinformationscienceandtechnology,2015,66(11):2215-2222.

  [2]周剑,王艳,XIEI.世代特征,信息环境变迁与大学生信息素养教育创新[J].中国图书馆学报,2015,41(4):25-39.

  [3]DONGX,GABRILOVICHE,GEREMYH,etal.Knowledgevault:awebscaleapproachtoprobabilisticknowledgefusion[C]//Proceedingsofthe20thACMSIGKDDinternationalconferenceonknowledgediscoveryanddatamining.NewYork:ACM,2014:601-610.

  [4]赵蓉英,陈烨.学术搜索引擎Googlescholar和Microsoftacademicsearch的比较研究[J].情报科学,2014,32(2):3-6,15.

  [5]胡伶霞.图书馆OPAC检索中基于词典的查询意图自动识别[J].图书馆学研究,2016(23):72-76.

  作者:王瑞雪1方婧1桂思思2陆伟1,3张显4

转载请注明来自发表学术论文网:http://www.fbxslw.com/wslw/26231.html