本文摘要:摘要为切实推动口述历史档案资源深度开发,本文综合运用本体、知识图谱等技术方法,从数据资源层、知识组织层、知识关联层、知识发现层四个维度架构数字人文视域下口述历史档案资源知识发现模型,从理论建构和应用探索双重视角指导并推进与口述历史档案资源关联的人、
摘要为切实推动口述历史档案资源深度开发,本文综合运用本体、知识图谱等技术方法,从数据资源层、知识组织层、知识关联层、知识发现层四个维度架构数字人文视域下口述历史档案资源知识发现模型,从理论建构和应用探索双重视角指导并推进与口述历史档案资源关联的人、地、时、事等内容特征及相互关系的可视化展示与挖掘,不仅为口述历史档案资源知识发现具体实施提供了可操作性框架参考,也有利于创新口述历史档案资源知识发现路径。
关键词数字人文口述历史档案资源知识发现
0引言
加大对口述历史档案资源的开发利用力度,深入挖掘口述历史档案信息,积极开展口述历史档案工作,将有助于推动档案事业发展,导引社会经济建设进步。我国隐藏着巨量珍贵的口述历史档案资源,伴随“数字”引领文化空间的转型,身处数字化环境的人们对口述历史档案资源的知识发现需求也愈加强烈。新一代技术空前活跃,前沿性技术、颠覆性技术不断涌现,催生新的数字技术,助力业态深度调整。技术的更迭带来的数据和信息爆炸式增长,致使信息过载干扰阻碍着用户信息选择和知识获取。
如何借由知识组织、关联及聚合为口述历史档案资源拾遗补阙,从存量及增量口述历史档案资源中发现有价值的信息,发掘潜藏在口述历史档案资源内部的隐性信息,实现数字技术与口述历史档案资源的最佳契合,助力口述历史档案资源多维知识发现,探讨数字与档案在互动共生中的新型研究范式转变和思维创新,是当下及未来人文领域研究焦点之一。简言之,数字人文与口述历史档案资源的融合,将驱动“数字”与“人文”共生,语义化、关联化、可视化、智能化是数字人文视域下口述历史档案资源知识发现研究的应然之势。
1文献综述
伴随大数据、数字人文与档案资源交叉融合,技术方法开始寻求在口述历史档案领域的栖息地,为口述历史档案研究提供工具切入点,改善口述历史档案资源形态,并为最终实现知识发现提供前景预判。知识发现缘起于20世纪90年代美国底特律召开的第一届数据挖掘研讨会,会中首次使用了“数据中的知识发现(KnowledgeDiscoveryinData,KDD)”一词,随后有关知识发现的相关理念与方法研究被广泛应用到各领域以探求新颖有用的知识。
知识发现在各领域的应用和发展能为档案资源知识发现提供参考支持。为创新世界记忆遗产文化传承,李建伟构建了口述梅州侨批史料数字仓储系统,从发现视角实现口述历史档案资源标引加工、知识揭示与主题索引,提取关联内容,如某个有价值的故事情节、数据、场景等,根据这些线索从海量数据库聚合更多主题相似的数据。[1]Wolduk对口述历史档案资源知识发现过程原理进行了概要介绍。[2]
Pattuelli讨论了文化遗产链接数据的生成、处理和集成过程,并以口述历史档案为链接数据命名实体的主要来源,描述了数据开发过程本身如何为遗产数据查询和接触路径。[3]然而现阶段,有关口述历史档案资源的知识发现研究鲜少,缺乏完整的模型框架予以系统指导。
一方面,口述历史档案资源呈现方式仍以简单检索、全文呈现为主,传统的馆藏资源贮存思维、手动查阅检索以及分类归档等陈旧手段已不能满足数字人文发展需要;另一方面,现有的口述历史档案资源数据库无法揭示口述历史档案内在本质属性和知识复杂关系,难以实现不同语义层面的口述历史档案资源细粒度组织关联,滞碍口述历史档案资源价值有效发挥。
基于此,本文将数字人文理念、技术方法与口述历史档案相关理论结合,架构数字人文视域下口述历史档案资源知识发现模型,从理论和实践双重视角助力资源深入揭示与深度挖掘是知识发现领域研究有益的新尝试,也是口述历史档案资源价值实现的源动力,不仅有助于丰富档案学相关理论知识,而且有利于推进数字人文技术方法在档案学研究中的应用,为口述历史档案领域研究者及相关领域学者提供参考与指导。
2数字人文视域下口述历史档案资源知识发现模型构建
数字人文在一定程度上凝合了数据化知识资源的序化和人文社科新知识的生产过程,可望促成口述历史档案资源知识发现而萌发出新的学科生长点。[4]
为顺应数字时代发展新要求,寻求“数字人文”与“口述历史档案资源”知识发现研究的组配可能性,笔者以新视角“切入”口述历史档案研究,提出数字人文视域下口述历史档案资源知识发现逻辑框架构想,以期解决口述历史档案资源知识“静置”、思维“困囿”、技术“迟滞”等问题。从层次结构看,该模型为四层应用框架,概览了整个口述历史档案资源知识发现过程以及所需技术工具;从功能角度而言,涵盖数据获取、数据预处理、知识序化、知识表示、知识生成、知识挖掘、评估反馈。
2.1数据资源层
数据资源层即口述历史档案数据来源,如手稿、日记、文本、照片、音频、视频、网站、数据库等,源自对散落资源的征集整合以及馆藏资源的馆际互联[5],可以为后续知识组织、关联与发现提供资源保障。在此过程中,数据获取功能必须解决用户无法获取数据描述的底层逻辑问题,通常可借助网络爬虫或公开API等技术方法提取有价值的口述历史档案数据信息。[6]同样,没有高质量和精准的数据就不会有高效率的知识发现过程和良好的知识发现结果,因而数据预处理功能可以避免不恰当数据或错误数据集合的引入而导致知识发现准确率降低(人工+自动剔除),是保障口述历史档案数据质量的关键。
2.2知识组织层
知识组织层即构建口述历史档案资源本体。与其他档案资源不同,口述历史档案资源内容庞杂,涉猎广泛,预处理后的口述历史档案资源尚不能达到 知识发现基本要求,内部信息揭示程度不够,不同的数字化成果间缺乏统一标准,易造成信息孤岛现象,不能完整反映资源间错综复杂的联系。如何有效地进行资源描述、组织和标引,知识序化功能至关重要,即对处于离散分布状态的口述历史档案资源结构序化。
同时,借由知识表示功能完成口述历史档案内容的形式化表达,清晰揭示语义内容,去除异构数据鸿沟,为深度关联与聚合提供结构基础,实现数据在不同应用之间顺畅交换、跨越资源类型藩篱、在组织层面实现知识融合。[7]即一方面可复用档案领域本体,并在此基础上补充元素加以改进;另一方面须自建本体,包含元数据标准选择[可参考口述历史电子档案元数据方案(DA/T —2015)和通用元数据标准],元数据抽取,术语词表构建,确认类的等级体系,定义类和属性,充实、修正本体,模型转换等步骤。[8]
值得注意的是,在此过程中,元数据是每个层次上升的粘合剂[9],是口述历史档案资源序化的必要手段,可揭示复杂概念及逻辑关系。同时,仅有概念化的模型只是纸上谈兵,因此,还需要通过知识生成功能(借助Apollo、OILEd、OntoEdit、OntoSaurus、Protg、WebODE等工具)实现口述历史档案资源本体可视化输出,可视化工具如OntoGraf、Graphviz、Owl-Editor等。
2.3知识关联层
知识关联层即构建口述历史档案资源知识图谱。作为一种“桥接”实践,图数据库灵活的图模式及固有的知识生成与挖掘功能支持知识存储、人文传播、历史陈述、知识探索。[10]于口述历史档案资源而言,图数据库起到了起承转合的嫁接作用,不仅是与口述历史档案资源本体映射链接的结构工具,也是口述历史档案资源知识图谱的存储与绘制工具。
知识图谱是口述历史档案资源高效利用及细粒度信息呈现并实现语义关联和可视化展示的有效途径,主要包括模式层和数据层架构,可视化工具如关系型数据库(如Oracle、DB2、MySQL)和非关系型数据库(如NoSQL、Neo4j、GraphDB),可实现口述历史档案资源知识单元向知识网络的升华。可以说,知识图谱通过冰冷枯燥的数据将鲜活丰满的口述历史档案资源存储并呈现,一端是高价值的数据结构,另一端是有温度的人文资源,更好地实现了“机器可读—资源存储”,为充分挖掘资源价值及发挥资源效用奠定了基础。
2.4知识发现层
知识发现层即基于知识图谱展开多维细粒度知识发现研究。挖掘功能是知识发现的终极目标,传统知识发现模式下,用户在浏览与检索口述历史档案资源时,难以将纷繁、复杂的不同类别口述历史档案资源串联起来。数字人文视域下,知识图谱为口述历史档案资源知识发现提供了可能。
一方面,知识图谱采用图模型描述知识关系,除共现关系外,还可以自主定义更多复杂的语义关系,如口述过程中提及的亲属关系、上下级关系、师生关系等;另一方面,知识图谱还提供了更为先进的挖掘算法(如知识推理),可以实现任意长度的关联路径分析,通过Cypher查询检索工具实现与口述历史档案资源相关的人、事、地、时等基础要素的聚合展示与知识挖掘,发现更多潜藏关系:或者是社会网络关系,能深入挖掘人物信息;或者是时空关系,能判别人物迁移轨迹;抑或是事件主题关系,梳理历史事件信息,进而串联成知识网络,实现资源多维互联。
值得注意的是,口述历史档案资源知识发现过程不是静态凝固的,而是动态循环、反复求精的过程,因此,评估反馈功能贯穿始终。当知识发现结果不理想的时候,可以循环到前续阶段进行调试与优化,或调整查询语句,或规划新路径,以进一步获得更为准确和符合口述历史档案资源知识发现需求结果。
3口述历史档案资源知识发现模型
主要模块可视化以知识组织、知识关联和知识发现为核心的口述历史档案资源知识发现过程至关重要。在对本文提出的数字人文视域下口述历史档案资源知识发现模型层次和功能进行剖析后,此部分将深入解构三个模块,引入南京师范大学抗战老兵口述资料中心数据源进行实例可视化展示。
3.1口述历史档案资源本体可视化
参照口述历史电子档案元数据方案(DA/T—2015)和通用元数据标准,依据实验数据源,整合与人物关联的信息(如姓名、性别、语言、国籍、籍贯、民族、党派等),建立人物(Person)类;将不同的人物角色(采访者、口述者、发布者)聚合,建立角色(Role)类;将开始时间、结束时间以及时间信息划归为时间(Time)类;任职经历(WorkExperience)类包含单位和职位两个子类;地点(Place)类设置国家(Country)子类;事件(Event)类包含与之相关的事件开始时间、事件结束时间、事件名、事件地点等属性;项目(Project)类下设摘要、标题、链接、资源大小、资源格式、资源类型、网页发布时间、发布时长等属性;身份(Identity)类定义领域内身份信息;权限(Rights)类包含版权(Copyright)属性;设备(Device)类添加设备制造商、设备型号、软件信息等属性。借助ProtégéOntograph对上述十个大类及属性予以可视化展示。
3.2口述历史档案资源知识图谱可视化
本体通过对口述历史档案知识抽离及重组,实现了领域知识的规范化描述。由于本体的类、属性、关系的知识组织方式与知识图谱的节点、边结构并不匹配,故而需要将口述历史档案资源本体解析为RDF三元组这一更具有通用价值的数据链接方式,完成与图数据库的映射,从而为后续口述历史档案资源知识图谱构建及深层发现提供清晰思路。
为直观展示口述历史档案资源本体解析的效果,将三元组以RDF图形式进行组织。以Person类和Project类之间的参与对象属性为例,“参与”这一对象属性在三元组(participate_in,rdf:type,owl:ObjectProperty)中为主语,表示的含义为“participate_in”是对象属性,在RDF图中作为节点,而在另一三元组(Person,participate_in,Project)中又作为谓语,表示的是人物“参与(participate_in)”项目。图4是以Person类为例进行本体解析后得到的部分RDF图,椭圆表示主语和宾语实体,方框表示数据,分别展示了Person、Role类,Interviewer、Interviewee、Publisher子类,interview、date_of_birth、native_place、has_role对象属性、language数据属性以及口述者“吴显光”人物实例之间的关联。
3.3口述历史档案资源知识发现结果可视化
如果说本体是概念化的知识单元,那么知识图谱就是实际化的知识网格,能为解决如何关联、聚合口述历史档案资源并将其内部事实进行细粒度知识发现提供新路径[11],通过对口述历史档案资源聚类分析,从中识别潜藏信息是口述历史档案资源知识发现的目标。本文以我国十大元帅之一的陈毅将军为例,以“MATCH(p1:person{person_name:“陈毅”})-[r]-(p2)WHERENOT(p1)-[:interview|:superior|:introducer_to_the_Party]-(p2)RETURNp1,r,p2”语句调取人物知识图谱进行browser可视化展示。
由此发现,在本文数据源中,该图谱以陈毅为核心起点,包含与之关联的人物19人,人物关系9种:亲戚(relative)关系、夫妻(husbandandwife)关系、父子(fatherandson)关系、父女(fatheranddaughter)关系、姐弟(sisterandbrother)关系、上级(superior)关系、姐妹(sister)关系、兄妹(brotherandsister)关系、叔侄(paternaluncleandnephew)关系。除了获取与陈毅直接相关的语义信息(即其妻子张茜、儿女陈丹淮、陈昊苏、陈小鲁、陈珊珊)外,我们还发现 其下属包括何克希、罗炳辉、张云逸、谭震林、洪学智、吕惠生、陈丕显、吴强、孙湘、冯定、刘子久、党云芳、刘玉柱、崔凤阁。
并且,何克希、罗炳辉、张云逸、谭震林四人还存在上下级关系闭环。与此同时,关联人物的籍贯地、现居地信息(分散至广东省、山东省、云南省、四川省、湖南省、安徽省等)也随之揭示,例如,党云芳的籍贯地是枣庄,崔凤阁的现居地是华州市,均位于山东省。可以说,知识图谱线上标识的属性关系可以帮助用户清晰可见语义关联信息,有效拓展了口述历史档案数据边界,丰富了口述历史档案资源知识发现方法体系。
由于数据源的局限性,该人物图谱仅实现了与陈毅关联的人物社会网络关系和时空网络关系揭示,未实现大范围知识互联。但是我们已经能够证实,基于知识图谱的人物社会网络关系互联可以为人物关系深入探讨提供重要参考。未来,可以以此为切入点,结合百科类知识图谱、家谱等,扩充数据来源,继续丰富和充实抗战时期人物知识图谱,以更全面的视角审视人物关系,并通过调取事件、项目信息等,进一步展现事件主题关系、项目主题信息等知识发现内容。
4结语
不管是传统的知识发现研究还是数字人文视域下的知识发现研究,新一代技术推助的“数字人文”热潮,带来的不仅仅是数据生产与处理能力的增强,同时,技术驱动也正在成为口述历史档案资源知识发现的核心动能。总体而言,本文充分融合领域相关知识。
结合口述历史档案资源属性和特征,架构数字人文视域下口述历史档案资源知识发现模型,引入实验数据源对主要模块进行可视化展示,从理论和实践层面回答并解决了口述历史档案资源知识发现“做什么”和“如何做”的问题,有助于深入揭示口述历史档案资源,优化口述历史档案资源粒度,拓展口述历史档案资源服务空间,为实现口述历史档案资源语义化组织、可视化关联、语义查询以及多维知识发现提供了新路径。细化而言,从人文计算到数字人文,概念的更迭反映出技术环境对研究范式的深刻影响,特别是以数字化记录、管理、传播与交流为代表的数字技术对人文研究发展意义深远,数字人文为口述历史档案知识发现研究带来新视野。
(1)资源获取方式变革。口述历史档案资源普具丰富性、多样性与繁杂性等特点,传统资源采集方式较为烦琐且以人工采集居多,难以应对卷帙浩繁的海量资源,无法对其进行细化规整、提升资源获取效率与资源获取便利性,因此,数字人文技术方法的注入能为口述历史档案资源获取方式开拓新思路,辅助人文研究走向深层次、多维度开发。[12]
(2)组织存储方式变革。数字人文背景下,技术的革新为口述历史档案资源组织存储带来契机,主要体现为对海量资源进行“数字化”处理,即通过数字化技术实现口述历史档案资源数字化存储与利用,借助本体、知识图谱等代表性数字人文技术方法实现了口述历史档案资源组织、存储、关联、查询及利用,极大提升了口述历史档案资源共享性,加速了口述历史档案资源深度开发。
(3)内容深度变革。内容深度、广度、丰富度、细粒度始终是口述历史档案资源知识发现研究不可或缺的重要组成部分。在数字人文研究背景下,对口述历史档案资源知识发现进行深入研究,有助于构建资源互关联、多维度、多梯次的资源体系,有助于推动口述历史档案资源间不同实体、属性、关系的知识挖掘,形成集事件、主题、人物、时间、空间等相关关系为一体的晶格立体化知识网络[13],将复杂的社会关系予以呈现,深度挖掘关联信息。
(4)资源展示变革。传统的口述历史档案资源呈现形式以扁平化图文声像为主,用户难以体会到虚拟环境带来的环境沉浸感与人机交互的快感,可视化技术的“加持”能赋予口述历史档案资源空间感和立体感,有助于拓展口述历史档案资源传播深度、广度与维度。如Ontograph、browser等可视化技术能从标签注释、图谱线上关系等渠道增强艺术人文,实现口述历史档案资源立体化、多模态呈现,打造知识动态交互空间。
综上所述,以数字媒介和人工智能为基础的口述历史档案资源业态和知识体系正日见雏形,“数字”为“人文”加速前行起到了“如虎添翼”的作用,数字人文已然成为口述历史档案资源知识发现研究的中坚力量。本文构建的数字人文视域下口述历史档案资源知识发现模型,不仅丰富了多元学科理论与方法,能为档案领域学者深度开发口述历史档案资源提供参考,并且对推进国家档案文化遗产数字化进程具有一定应用价值。相信在“数字驱动+知识发现”的催化作用下,口述历史档案资源知识发现研究必将焕发蓬勃生机。
注 释 及 参 考 文 献
[1] 李建伟.口述客家侨批选题规划与资源开发探索[J].档案学研究,2018(4):43-48.
[2] Wolduk,Kim.ApproachtoOralStorytellingResourcesforCulturalContents-intheCaseofJeonbukProvince[J].KoreanLanguage&Literature,2014,91:89-114.
[3] PattuelliMC,HwangK,MillerM.AccidentalDiscovery,IntentionalInquiry:LeveragingLinkedDatatoUncovertheWomenofJazz[J].Literary&LinguisticComputing,2017(4):918-924.
[4] 周文杰.知识资源的序化与数字人文的结构化知识资源基础—基于知识地图和认知结构学说的解析[J].情报资料工作,2020(6):79-87.
[5] 赵善栋.信息时代区域档案资源共享问题与对策[J].兰台世界,2021(1):109-111.
[6] 张成丽.数字人文观念在图书馆数据中的应用[J].山西档案,2019(2):106-108.
[7] 张磊,贺晨芝,赵亮.面向数据与知识服务的第三代图书馆服务平台[J].国家图书馆学刊,2018(6):40-47.
作者:邓 君 王 阮
转载请注明来自发表学术论文网:http://www.fbxslw.com/dzlw/29649.html