本文摘要:摘要目录是组织与利用古籍资源的重要工具,也是图书情报学科的重点研究对象。互著与别裁作为古典目录学中的两种辅助方法,能在深入剖析文献内容特征的基础上,根据内容的多元性将文献准确、完整地记载于目录体系中,达到类例既分,学术自明的效果。本文将互著与别裁映
摘要目录是组织与利用古籍资源的重要工具,也是图书情报学科的重点研究对象。互著与别裁作为古典目录学中的两种辅助方法,能在深入剖析文献内容特征的基础上,根据内容的多元性将文献准确、完整地记载于目录体系中,达到“类例既分,学术自明”的效果。本文将互著与别裁映射为文本挖掘中的文本分类问题,提出基于机器学习以实现互著与别裁的方法框架,为古籍图书在目录体系中的多类目记载贡献对策。本文首先利用TextCNN与BERT两种机器学习模型对先秦诸子六家十部典籍文本进行分类训练,结果显示BERT优于TextCNN,可以达到91.64%的分类准确率;之后用微调训练后的BERT模型对《荀子》与《管子》进行篇、章粒度的分类判断,最终得出这两部图书各篇章互著与别裁的结果。本研究展现了在数字人文视域下,数字技术对古典目录学、古典文献学以及学术史研究的应用价值。
关键词古籍目录互著别裁机器学习数字人文
引言
我国古典目录学历史悠久,具有“辨章学术,考镜源流”的学术价值,至今仍是“学中要紧事”[1],对古籍资源的组织与利用、古籍数据库的设计与开发、古籍联合目录的建设与统一等具有重要作用。互著与别裁作为古典目录学的两种辅助方法,能在剖析文献内容的基础上,根据内容的多元性将文献准确、完整地记载于目录体系的多个类目下,达到“类例既分,学术自明”的效果,曾应用于《七略》《文献通考·经籍考》《澹生堂书目》《直斋书录解题》《书目例略》《百川书志》《艺文类聚》等书目中[2-4]。
但互著与别裁的传统实现策略主要依托于人工,这不仅对人力和学术素养有较高要求,而且存在主观性较强或难以准确判断的问题,以致无法在海量古籍上得到普遍运用。本文在数字人文视角下引入机器学习方法,为互著与别裁提供新的实现策略。在古籍数字化的基础上智能化地实现互著与别裁,可以高效处理更多古籍资源与更多类目的对应关系,也可以深入到篇章做出细粒度的分类判断。这不仅能够拓展互著与别裁的理论与实践边界,而且能够提高古籍资源的组织与利用效率,为数字环境下的“即类求书,因书究学”提供量化保障。
在新文科背景下,该方法还可以为人文研究提供新的分析维度,助力发现新问题。本文首先提出基于机器学习以实现互著与别裁的方法框架,之后分别利用TextCNN和BERT两种机器学习模型对先秦诸子六家十部典籍文本进行分类训练,让机器学习各家类别与典籍文本的对应关系,再选取训练后分类效果更好的BERT模型对《荀子》和《管子》分别进行分类判断,最终依据分类结果提出这两部典籍的互著与别裁建议。
1研究综述
互著与别裁的思想早见于明代祁承㸁《澹生堂藏书目录·庚申整书略例》的“互”与“通”,后于清代章学诚《校雠通义》中正式提出[5,6]。互著与别裁虽然作用对象不同,但二者的原理和方法相通,即在分类编目时,将内容广泛的或是具有多个主题的图书及篇章全面、科学地记载于目录体系内的多个类目中,实现目录辨考学术和指导文献检阅的多重作用,对于实现古典目录学“辨章学术,考镜源流”具有重要价值[3,7]。
同时也要辩证认识到,互著与别裁的传统实现方法具有时代局限性,在客观性、准确性、效率等方面均存在问题。如徐召勋在1979年就指出:“假如一本书包括甲、乙两个类的内容,而且各占一半,这究竟是用互著法还是用别裁法呢?还有的书包括两个类的内容,不是一半对一半,而是一大半对一小半。这样的书又该如何处理呢?”对此他的回答是“结合具体情况而定”[8]。实际上,在回答这个问题前,首先需要解决的是如何量化书中不同类别所占的比例,即何为“一半”“一大半”“一小半”。基于人工主观判定的方法很难回答这个问题,这意味着过去的互著与别裁判断可能存在错误。
然而,这一问题在近三十年并没有得到学者们的充分重视,近年有关互著与别裁的研究多集中于再论其内涵[9]、追溯其起源[2,3]以及辨析书目应用实例[4],几乎没有学者再次审视互著与别裁在实现方法上的问题,也没有将量化方法引入其中。近五年来,随着“数字人文”文理交叉融合理念的推广,有学者逐步意识到可以利用数字技术来完善并丰富古典目录学的理论体系和实践方法。在理论方面,陈志新指出,目录学的未来要依托于大数据和人工智能等技术来创新和进步,实现过去依靠大学问家也无法有效完成的任务[10]。在实践方面,李瑞龙和李明杰提出利用数字技术实现古典目录学辨考学术的思想,但其在技术探索时更侧重于梳理学术源流,而跳过了更为基础的分类图书环节[11]。
相关地,李惠等构造了古籍提要共现网络并探讨了提要推荐对古籍知识发现的潜力[12]。由此,已有数位学者通过理论探讨或实践证明数字技术对古典目录学的价值。若从技术的角度将互著与别裁理解为文本分类问题,那么国内外已有较为丰富的研究成果可以借鉴。文本分类的核心任务是将文档自动划分到预先定义好的类别中,其研究可追溯至1960年代Maron根据受控词表辨识文档主题、自动分类文档并索引科学文献[13]。
目前机器学习是文本分类的主要方法,并且在英语和现代汉语等语境下有较为成熟的应用,例如用于垃圾邮件识别、网页主题分类、文本情感分类、文本风格分类等。在图书与情报领域,一个典型的应用场景是利用主题词等信息实现图书自动分类标引,如王昊等利用机器学习模型构建多层次图书自动分类系统,根据题名、关键字和文摘信息自动给出中图法分类号[14]。随着数字化建设带来的古籍数字资源的增长,有学者开始将这一技术运用在古籍文本分类上,例如张馨怡利用词向量技术表示古诗文本,再通过TextCNN模型将古诗判断为爱国类别或其他类别[15]。但尚未有研究利用新技术来解决古典目录学中互著与别裁存在的问题。
2基于机器学习的互著与别裁方法框架
本文提出一套基于机器学习的互著与别裁方法框架。该框架整体逻辑为:在古典目录学已有研究经验与成果的基础上,由互著与别裁的内涵和原则来统领整个方法。根据具体的研究需求或目录需求确定文献范围,通过对多源异构语料的采集、清洗与融合,最终构建成研究所需的语料库。
利用语料库内结构化的文本和类别标签来训练分类器,再利用分类器来判别待分类文本的类别概率,并根据概率阈值为文本做出分类建议。若文本是以书为单位,则对应于互著标引,若文本是以篇章为单位,则对应于别裁标引。最终结果可应用于目录补充、学术史研究、图书编目以及古籍数据库按类浏览和索引等方面。
3分类模型训练实验
为检验机器学习框架是否可以有效判别古籍类目,本文以四部的子部为对象,以先秦诸子六家为类目,以各家代表典籍为文本训练分类模型,并分析分类结果的准确性。
3.1实验数据
代表典籍的选定主要参考《汉书·艺文志》中记载的先秦诸子典籍,并参考梁启超在《汉书·艺文志·诸子略考释》中对《汉书·艺文志·诸子略》中学派、学者、著述的存、佚、伪考释结论[16]。本文在学衡数据网站①下载上述典籍的HTML格式文本,用Python调用bs4中的BeautifulSoup4.4.0解析文件,将其转换为以类目、书名、篇、章、正文组织的结构化文本存储。经过数据清洗后,将3220条训练数据依照8:2的比例随机划分训练集和验证集。
3.2模型介绍
本文使用TextCNN和BERT两种模型进行分类实验。模型基于文本语义建模,将句子、段落向量化地表示,据此训练神经网络可以捕捉到丰富的语义及结构信息,是目前常用的文本分类方法。TextCNN模型需要先分词再训练词向量,因古文分词技术尚不成熟,故本文分别尝试Jieba和单字两种分词方法,然后利用word2vec的CBOW模型训练词向量。
BERT模型是采用双向深度Transformer编码器的预训练语言模型[17,18],无需分词即可将句子或段落向量化表示,本文在BERT-Base-Chinese预训练模型的基础上继续微调训练。两种模型分别在原始语料、去标点语料、去标点和停用词语料上各重复运行5次,每次随机划分训练集与验证集,取5次中的train-accuracy、val-accuracy、F1的平均值和最优值进行比较。
3.3分类评价
实验结果表明,在其他超参数相同的情况下,TextCNN与BERT均在不过滤标点和停用词的原始语料上达到最优分类效果,预处理复杂度的提高反而会带来准确率和F1值较大幅度的下降,这一特点在利用Jieba分词训练TextCNN分类模型时尤为显著,在过滤掉标点和停用词后该分类模型平均准确率由61.49%下降到31.64%。
这一现象说明古文的预处理策略会在较大程度上影响分类模型的效果,对于本文选取的先秦诸子语料而言,保留标点与虚词可以有效提高分类模型训练效果。这一发现验证了Uysal和Gunal此前的研究结论,他们利用SVM模型分别在英语和土耳其语语料上训练分类器,发现保留停用词的语料预处理策略可以获得最高的准确率[19]。对比BERT和TextCNN可以发现,BERT的分类效果明显好于TextCNN的分类效果,在原始语料上BERT的F1值为91.91%,远高于TextCNN-Jieba的59.52%。
BERT的另一个优势在于无需分词,以单字为单元编码训练就可以取得较高的分类准确率,规避了目前古文分词不成熟的问题。综上,在原始文本上,BERT分类训练可以达到最优的效果,其平均准确率可以达到91.64%,这说明预训练语言模型可以基于古籍文本有效分辨先秦不同学派的典籍。下文将进一步利用在这十部典籍上微调训练后的BERT模型对《荀子》与《管子》做互著与别裁分析。
4互著与别裁实验
4.1《荀子》实验与讨论
《荀子》位于目录体系中的儒家类,但其学派归属问题始终是重要研究内容。唐代韩愈指出荀子思想“不粹”,宋代二程及朱熹等理学家认为荀子思想“极偏颇”并将其归为法家,现在也仍有儒家说、法家说、杂家说等观点并存[20]。本研究利用机器学习方法对《荀子》做互著与别裁探索,可以为该问题的解决提供新的维度。
4.1.1《荀子》互著结果及讨论
将《荀子》511个章节文本输入BERT模型后可以得到各条文本的分类结果,将各条文本划分到概率最大的类别中。若将各条文本对应于各学派的概率进行统计汇总。
《荀子》最接近法家与儒家,同时也兼及其它学派,这与传统研究结论相符。对于儒法之争的问题,分类模型将更多的条目判断为法家,揭示出《荀子》更接近以《韩非子》和《商君书》代表的法家而非以《论语》和《孟子》代表的儒家。本文以“均值比较”确定互著阈值,即若文本属于某一类的概率超过平均分类的概率,则可判断文本属于该类。经计算,法家与儒家的概率大于16.67%,分别为46.68%和24.95%,故将《荀子》在法家和儒家两个类目中做互著标记。此互著结果体现了荀子“礼法并施”的思想特征。
荀子在继承儒家的礼制思想的同时,也由性恶论的观点出发,认为刑、罚等法家手段是治国所必需,如《荀子·劝学》篇“礼者,法之大分,类之纲纪也”[21]。这一互著结果也呼应了荀子研究中一直存在的儒法之辨。吕思勉在《经子解题》中评价“语其宗旨,实与法家最近,而又蒙儒家之面目者也”[22];赵法生认为荀子属于受儒家影响的法家,即“儒法”[23];王正提出荀子的“法”同法家的“法”有所不同,是带有法家因素的儒家,最多称为“法儒”[24]。本文通过机器学习模型得到的量化结果也如实反映出这一特点。
4.1.2《荀子》别裁结果及讨论
本文借助由机器学习模型得到的二维热力图分析《荀子》内部篇章所属学派,由此做出别裁判断。每一篇对应六个学派的概率和为1,具体对应每个学派的概率等于该篇中各章节对应各学派概率的平均值,颜色越深即概率越大,越接近该类目。在《荀子》的绝大多数篇中,法家对应颜色最深,说明这些篇更接近于法家,而儒家、墨家、道家次之,与互著结果一致。若假定《荀子》互著于法家和儒家,可以为《荀子》三十二篇做出别裁标注。
虽然此前未有学者将《荀子》三十二篇的每一篇都分析思想归属,而本文所给出的别裁建议也未必绝对准确,但若将传统与数字化两种方法得到的结论相比较,也许可以通过“三角论证”取得一些新的突破。对于本文所列举的道家篇,赵吉惠在《荀子非儒家辨》中列举《天论》《劝学》《解蔽》《儒效》《正名》篇文本论述荀子的道家思想倾向[25],李刚兴列举《天论》和《解蔽》论述荀子对道家思想的吸收与改造[26],许倩撰文论述《解蔽》中的道家思想[27],雷震和郭成杰从养生观的角度论述《修身》篇同老庄的相似之处[28]。
对于本文所列举的墨家篇,刘宝春指出《大略》《不苟》《荣辱》《富国》《君德》《王霸》《儒效》《强国》《君子》《君道》《臣道》《正论》《劝学》《性恶论》《成相》中或多或少带有墨子“利民”“贵义”“尚贤”“节用”“所染”思想[29],赵吉惠也指出《荣辱》篇有墨家早期的义利观体现[25]。对于本文所列举的兵家篇,《议兵》是荀子军事思想的主要体现,也是学者们研究荀子军事思想的主要依据[30,31]。
此外,模型揭示出以《大略》为分界,《荀子》前后文本存在“断层”,即前二十六篇更侧重法家思想,后六篇侧重儒家思想。《荀子》后六篇大量引述孔子及弟子言论,内容涵盖仁、礼、义、利、孝道等儒家观念。唐代杨倞指出,《大略》《宥坐》《子道》《法行》《哀公》《尧问》并非荀子本人所作,称《大略》篇为“弟子杂录荀卿之语”,《宥坐》《子道》《法行》《哀公》《尧问》五篇“皆荀卿及弟子所引记、传杂事”[32]。
董志安指出后五篇“与荀卿基本学说不尽相符,而多少带有其它儒家派别的思想痕迹”,判断后五篇既不是出自荀子本人,也不是出自荀子传授[33]。廖名春认为,《荀子》后五篇包括荀子整理和纂集的资料及弟子之作,提出考察荀子思想应主要以前二十七篇为依据[34]。本文模型发现的“断层”现象揭示出《荀子》文本前后思想的差异,与上述传统研究结论相符,能对此类研究形成有益补充。
4.2《管子》实验与讨论
《管子》是对管仲学派思想的记载,书中记载的思想较为复杂,涉及多个学派思想,在学术史研究中始终有学派分属的争议,并且这种对于《管子》思想的类别争议也体现在目录类目的变化中[35]。如《管子》在《汉书·艺文志·诸子略》中记载在道家类目,在《隋书·经籍志》《四库全书》中列为法家类目,李宗邺、潘俊杰等人主张《管子》是杂家的汇集[36,37]。因此本文利用机器学习方法对《管子》提出互著与别裁建议,助力于《管子》思想问题的讨论。
同样,虽然此前未有学者对《管子》七十五篇的每一篇都分析思想归属,而本文所给出的别裁建议也未必绝对准确,但若将两种方法得到的结论相比较,也许可以通过“三角论证”取得一些新的突破。对于本文所列举的儒家篇,冯友兰指出《弟子职》与《弟子规》实属一类[38],罗根泽认为《弟子职》的作者疑是汉代儒家[39],张连伟虽不赞同汉代儒家说,但同样认为《弟子职》体现了儒家所重视的学堂礼仪。
对于本文所列举的道家篇,《管子》四篇《心术上》《心术下》《白心》《内业》所体现的道家思想已是一种共识[40]。但是,模型也得到了一些不同于人文观点的结果,如罗贤龙判断《法法》《仁法》《明法》属于黄老作品[41],而本文将这几篇判别为法家类,这种差异值得关注。这种差异同样存在于《管子》的墨家思想:模型判别《管子》中大量篇章都与墨家思想相近,但是传统研究对《管子》墨家思想的研究较少。
本文通过机器学习模型揭示出《管子》与《墨子》思想之间的相似性,还值得未来更多的探讨。对于本文所列举的兵家篇,池万兴指出《幼官》《七法》《参患》《地图》《制分》《九变》《兵法》是兵家文字[42],罗根泽指出《七法》《兵法》《制分》为兵家所出,《幼官》和《势》为兵阴阳所出(兵家四大流派之一)[39],梁启超列举《七法》《九变》《兵法》《霸言》《小匡》中含有军政思想[43]。由此可知,模型得到的量化结论,既有能与已有研究结论相印证的,也有不同之处,这些正是值得未来更多探讨及批判的靶向所在。
5结语
古籍是承载中华优秀传统文化的重要载体,合理、有效地保护与利用古籍资源是弘扬中华文化、树立民族自信的重要举措。本文借助机器学习技术,从古籍资源中挖掘出新的知识,能为古籍研究提供新的方法与论据,让古籍资源焕发出新的生机,让古籍“活起来”,并助力于科学研究和社会文化的进步。
本文提出利用机器学习来实现互著与别裁,从全书、篇、章等粒度辨析古籍类别,并对先秦诸子典籍进行了实验。实验结果不仅显示了机器学习对古籍文本分类的潜力,也对《荀子》及《管子》两本书给出了具体的互著与别裁建议,此外实验结果展现了在数字人文视域下,数字技术对古典目录学、古典文献学以及学术史研究的应用价值。
鉴于时间和语料等方面的限制,本文仍存在一定的不足和局限性,未来的研究可以从以下几个方面展开:在范围方面,进一步探究在更大规模的目录及语料上方法是否适用;在机器学习方法方面,可以让BERT模型在大规模古籍语料做进一步的预训练,或结合更准确的分词策略提高TextCNN的表现,也可以采用更为先进的机器学习模型;在互著与别裁判断策略上,进一步将此前“视情况而定”的依靠主观模糊性判断的惯例和阈值具体化、定量化表示出来,从而制定更合理的判别规则。
参考文献:
[1]陈晓华.传统目录学仍是“学中要紧事”[N].中国社会科学报,2016-08-18(001).(ChenXH.Traditionalbibliographyisstill"themostimportantthinginlearning"[N].ChineseSocialSciencesToday,2016-08-18(001).)
[2]李景文.“互著”、“别裁”起源时间考辨——读王重民先生《校雠通义通解》[J].图书情报工作,2012,56(7):140-144.(LiJW.Theoriginsof“exchangeindexing”and“reindexing”:withastudyofWangChongmin’sJiaoChouTongYiTongJie[J].LibraryandInformationService,2012,56(7):140-144.)
[3]王国强.中国古代书目著录中的互著法和别裁法[J].郑州大学学报(哲学社会科学版),2002,(4):130-133.(WangGQ.Theinter-recordmethodandanalytic-recordmethodinancientChinesebooklistrecord[J].JournalofZhengzhouUniversity(PhilosophyandSocialSciencesEdition),2002(4):130-133.)
[4]韩建立.《艺文类聚》中的“互著”与“别裁”[J].图书馆学刊,2014,36(4):117-119.(HanJL.InterrecordandanalyticrecordinYiWenLeiJu[J].JournalofLibraryScience,2014,36(4):117-119.)
[5]章学诚.校雠通义[M].北京:古籍出版社,1956.(ZhangXC.JiaoChouTongYi[M].Beijing:ClassicsPublishingHouse,1956.)
[6]罗友松,朱浩.“互著”、“别裁”的理论探讨始于谁?——与徐召勋同志商榷[J].图书馆杂志,1982(1):12-13.(LuoYS,ZhuH.Whostartedthetheoreticaldiscussionof"interrecord"and"analyticrecord"?:discussingwithComradeXuZhaoxun[J].LibraryJournal,1982(1):12-13.)
作者:张力元王军
转载请注明来自发表学术论文网:http://www.fbxslw.com/jjlw/29738.html