本文摘要:[摘要]目的利用文献计量学研究方法,解析数字PCR技术相关文献的分布模式和知识结构。方法应用网络数据库检索2000年1月1日至2019年12月31日已发表的有关数字PCR的学术论文。利用书目条目共现矩阵生成器(BICOMB),对提取的主题词进行定量分析。根据生成的高频主要主题词/
[摘要]目的利用文献计量学研究方法,解析数字PCR技术相关文献的分布模式和知识结构。方法应用网络数据库检索2000年1月1日至2019年12月31日已发表的有关数字PCR的学术论文。利用书目条目共现矩阵生成器(BICOMB),对提取的主题词进行定量分析。根据生成的高频主要主题词/副主题词词篇矩阵,利用gCluto软件进行聚类分析。构建主要主题词/副主题词的共现矩阵,进行战略坐标及社会网络关系分析。结果根据检索策略,共纳入2733篇论文,年度论文发表呈现显著上升趋势。在所提取的主题词中,识别出25个高频主题词/副主题词,并将热点聚类为5类。在战略坐标图中,数字PCR技术在肺癌突变基因快速检测及原癌基因突变检测方法的建立与临床应用方面的研究处于成熟且核心位置,而在妇科肿瘤检测应用、无创产前检查以及液体活检等方面处于相对不成熟阶段,为日后的研究提供了潜在的研究空间。结论通过对近20年的数字PCR技术的文献计量学研究,可以对这一技术的发展趋势和相关应用进行总体把握,为研究人员的项目实际和运行提供借鉴。
[关键词]数字PCR;文献计量学;共词分析;战略坐标;社会关系网络分析
数字PCR(digitalpolymerasechainreaction,dPCR)技术是20世纪90年代发展起来的新一代聚合酶链反应扩增技术[1]。经过十几年的不断探索与应用,数字PCR技术因其能实现对初始样本的绝对定量、高灵敏性、高特异性和高精确度等特点,广泛应用于基因检测、疾病诊断、环境及食品监测等方面。文献计量学方法,如词性分析和共词分析等,可对文献中热点问题进行定量分析与解读[2]。
根据选定文献可用一组专业词汇来表示的原则,在分析过程中,两个相关的专业词汇之间的关系由它们在同一篇文献中共存的频率来定义[3]。然后,应用聚类分析等统计分析方法对词汇进行分类,进而分析出所选研究的重点和框架[4]。此外,根据共现聚类分析结果,可计算出每个聚类中关键词的密度和向心度,绘制战略坐标图,对所选研究领域的发展趋势,潜在研究方向作出描述。社会网络分析(socialnetworkanalysis,SNA)是研究一组因素之间的关系并分析其网络联系的方法,它包括节点(在本研究中表示提取的主要主题词/副主题词)和连线(在本研究中表示这些主题词之间的关系)[5]。
在复杂网络中,识别影响节点具有重要的理论和实践意义。中心度是分析社会网络的一种重要度量方法,其中点度中心度、中间中心度和接近中心度是比较网络中节点中心性的3个被广泛接受的指标[6]。本研究结合文献计量学、战略坐标分析和社会关系网络分析的优势,就dPCR技术近20年的文献报道情况及热点研究领域进行了分析。
1数据来源与方法
1.1数据来源
本研究以PubMed数据库为基础,以((((((("digitalpolymerasechainreaction"Title/Abstract)OR("digitalPCR"Title/Abstract))OR("DPCR"Title/Abstract))OR("dropletdigitalpolymerasechainreaction"Title/Abstract))OR("dropletdigitalPCR"Title/Abstract))OR("ddpcr"Title/Abstract))OR("chipdigitalpolymerasechainreaction"Title/Abstract))OR("chipdigitalPCR"Title/Abstract)为检索式,时间限定为2000年1月1日至2019年12月31日。从PubMed下载的每份文献包含以下项目:标题、作者、出版年份和主要主题词/副主题词。这些数据保存为TXT格式供后续分析。
1.2方法
1.2.1数据提取与矩阵设置
书目条目共现矩阵生成器(bibliographicitemco⁃occurrencematrixbuilder,BICOMB),可在数据库中精准提取和统计书目信息,生成词篇矩阵及共现矩阵,为后续统计分析提供基础数据[7]。
在本研究中,利用该软件对收集文献的年份、作者、主要主题词/副主题词等信息进行频率排序。H指数原则,即将需要词条根据出现频次升序排序,当出现频次与排序序号相一致时记为H指数[8]。在本研究中以dPCR为研究对象,提取的高频主题词中有“PolymeraseChainReaction”等主题词掩盖了检索结果中真实应用的其他主题词,“DNA/*analysis”“DNA/*genetics”范围过于宽泛,指向性较差。
因此,在统计时将这些主题词剔除,重新得到高频主题词/副主题词列表。根据高频主题词在同一篇文章共现情况,构建以主要主题词/副主题词为行名、源文献为列名的主题词⁃源文献词篇矩阵,利用gCluto(graphicalCLUsteringtoolkit,devel⁃opedbyRasmussen,Newman,andKarypisfromUni⁃versityofMinnesota),Version1.0软件建立双聚类分析模型[7]。同时构建高频主题词共现矩阵,进行战略坐标分析及社会网络分析。
1.2.2战略坐标分析
根据高频主题词共现情况计算出每个聚类类别的向心性和密度,绘制二维空间坐标图[9]。X轴代表向心性或外部衔接指数,即主题词在整个网络中的核心位置。Y轴代表密度或 内部凝聚力指数,即主题词在整个网络中的发展情况[10]。在X轴和Y轴上生成4个象限,根据各个聚类类别在象限中的位置,描述聚类类别在该领域的核心位置及发展情况。
1.2.3社会关系网络分析
将高频主题词共现矩阵导入Ucinet6.0(UniversityofCalifornia,Irvine,USA)软件,采用社会网络分析方法对dPCR的主题词和知识结构进行分析[11]。
利用NetDraw2.084软件将主题词进行网络结构可视化处理,使其显示在二维图上。网络节点是主要主题词/副主题词标签,连线表示这些词的共现频率。为了解dPCR主题词的网络结构,我们通过测量每个节点的点度中心度、中间中心度和接近中心度来评估这些关键词在网络中的位置。点度中心度表示网络图的整体中心性,体现整体网的集中程度。中间中心度表示该点的“中间人”程度,即媒介程度。接近中心度被定义为一个节点到所有其他节点的最短距离的和,意味着接近中心度越高,该节点与其他节点的距离就越近。
2结果
2.1文献基本情况
根据检索策略,本研究共纳入2733篇文献。自2012年开始,关于dPCR技术的报道呈显著上升趋势。本研究中共有918种期刊报道过dPCR技术相关文献,其中发表量前十的期刊中,前3位期刊PLoSOne、ScientificReports和MethodsinMo⁃lecularBiology发文数占该领域检索文献总数10.53%。
2.2研究热点聚类及聚类分析
在检索到的2733篇文献中,累计出现主要主题词/副主题词3363个。主题词出现频次与排序相交处在24~25,取24为本研究的H指数,进而定义出现频次≥24次的主题词为高频主题词。根据H指数原则提取出25个高频主题词。
25个高频主题词出现频次的累计百分比为15.47%。这些词可代表近20年dPCR领域的研究热点。在文献篇名与主要主题词/副主题词双聚类分析基础上,对主题词进行分组,共得5个聚类分组。由聚类分组可视化图形可见,5组区域相互独立,其中类别1聚集性最好,表明类别1内部主题词与该研究领域具有很高的一致性。
2.3dPCR社会关系网络分析
使用点度中心度、中间中心度和接近中心度对社会关系网络图进行分析。在dPCR网络中,有10个主要主题词/副主题词的点度中心度大于平均值50.96,同时包含了排名前10的高频主题词/副主题词中的8个,在这8个高频主题词中“LungNeo⁃ plasms/*genetics”的点度中心度最高,为167。中间中心度前两名分别为23.58、21.19,分别代表“Molec⁃ularDiagnosticTechniques/*methods”和“DNAMuta⁃tionalAnalysis/*methods”,这两个主题词在网络中具有较强的中介作用。“DNAMutationalAnalysis/*methods”具有最高的接近中心度85.71。为便于理解,我们根据中间中心度绘制了社会关系网络图。
3讨论
文献计量学研究中,主要主题词可揭示所在文献中核心的内容,大量主题词集合可反映该学科的研究现状和发展状况,目前该研究方法已广泛用于病原微生物分析及军事训练分析等多个领域[4,12]。为系统考察dPCR的基本知识结构,本研究在文献计量学基础上,将共词分析,战略坐标以及社会关系网络分析结合起来。根据共词分析,将紧密度强的主题词形成类别并分析。
3.1类别1:肺癌突变基因快速检测方面的应用肺癌是世界上新发病例和死亡人数最多的癌症,非小细胞肺癌是最常见的亚型,约占所有病例的85%[13]。表皮生长因子受体(epithelialgrowthfactorreceptor,EGFR)、鼠类肉瘤病毒癌基因(kirstenratsarcomaviraloncogene,KRAS)等癌基因的某些突变与非小细胞肺癌治疗药物敏感性相关,肺癌突变基因的全面分析对非小细胞肺癌患者提供最佳治疗方案至关重要[14,15]。
目前,dPCR技术已证明在鉴定和定量肿瘤游离DNA突变方面具有极高的灵敏度和准确性,特别是在药物敏感或耐药的肿瘤突 变基因评估中具有很高参考价值,为临床诊断、治疗方案优化及预后评估提供了重要的检测依据[16]。
3.2类别2:原癌基因突变检测方法的建立与临床应用癌症检测,即对原癌基因和关键信号通路中的体细胞变异进行筛选,对完善临床诊断、药物靶向治疗提供帮助[17]。EGFR及其下游信号通路参与了包括结直肠癌在内的多种人类肿瘤的发生和发展过程[18]。
目前应用抗EGFR单抗[如帕尼曲单抗(pani⁃tumab)或西妥昔单抗(cetuximab)]可使患者取得一定的疗效,但这种疗效与患者EGFR基因突变与否密切相关[19]。因此,在治疗前对患者进行针对性的基因检测,对其后续疗效检测及评估具有重要意义。类别1和类别2具有紧密相关性,位于战略坐标图中第一象限,表明目前该方面研究在整体研究中处于核心且成熟的地位,是整个研究的热点领域。
3.3类别3:液体活检概念的提出及应用癌症基因变化分析是目前癌症患者管理和治疗决策的核心问题。然而,目前用于癌症基因检测的原料,如肿瘤部位穿刺活检、手术切除肿瘤或者石蜡保存肿瘤样本给检测分析带来一定的局限性[20]。液体活检提供了检测、分析和监测各种体液(如血液或尿液)中癌症成分的机会,而不是在肿瘤组织的碎片中[21]。液体活检除可实现一种非侵入性或微创的样本获取方式外,更使得对肿瘤的连续监测成为可能。近几年,在dPCR技术和下一代测序技术大力发展背景下,液体活检为临床检测作出的贡献越来越大。
3.4类别4:无创产前检查及分子诊断等方面的应用传统产前检查方式,如绒毛取样和羊膜穿刺都是侵入性的,存在流产风险[22]。1997年,在母体循环血中鉴定出无细胞胎儿DNA(CffDNA),使得通过简单的静脉穿刺进行非侵入性的产前诊断成为可能[23]。然而,CffDNA通常只占孕妇血浆总DNA的10%~20%,存在大量母体DNA背景的干扰,使这种无创检测方法的发展受到很大限制[24]。dPCR技术在精准检测方面具有独特优势。因其可在复杂背景信息中精确检测到胎儿DNA,dPCR目前已在21三体综合征、常染色体遗传病以及性连锁遗传病检测研究方面取得一定进展,为以后临床广泛应用打下了基础[25]。类别3和类别4也有密切关联,处于战略坐标图中的第3象限,表明该方面的研究处于整体研究的相对边缘区域,具有较大的发展空间。
3.5类别5:妇科肿瘤检查及监测中的应用美国癌症协会报道,大多数妇科肿瘤患者通过手术和术后化疗方式可得到治疗,但在目前监测技术下,有超过半数患者在18个月内复发,并最终导致死亡。因此,及时有效的术后监测成为提高存活率的关键。循环中的无细胞DNA被认为是从正常细胞和癌细胞中脱落或释放,并将循环中的无细胞血浆肿瘤DNA称为血浆肿瘤DNA(ptDNA)[26]。
最近有研究使用dPCR检测转移性乳腺癌患者的前瞻性研究,将ptDNA与循环肿瘤细胞和乳腺癌血清标志物CA15⁃3进行了比较,并表明ptDNA更准确地反映了肿瘤负荷,动态监测范围更大,便于后续治疗和疾病进展监控[27]。
社会关系网络中显示,前10名高频主题词中,有8个具有较高的点度中心度。根据点度中心度的定义,我们认为高频主题词,如“LungNeoplasms/*genetics”,与其他成分具有最强的直接联系,是整个研究领域的核心问题。就本研究选用的中间中心度而言,“MolecularDiagnosticTechniques/*meth⁃ods”和“DNAMutationalAnalysis/*methods”处于整个网络的中枢位置,表明它们在控制其他成分的相互连接方面具有最大作用。“PrenatalDiagnosis/*methods”“ViralLoad/*methods”和“DNACopyNum⁃berVariations/*genetics”处于该网络的边缘,表明dPCR技术在产前检查及病毒载量中的运用是新兴领域,具有巨大研究潜力。
本文所采用的双聚类分析和战略坐标图可分别用于展示特定的主题词结构和评估每个类别的成熟状态,但这两种方法都不能解释各个节点之间的相互联系。社会关系网络图弥补了上述不足,描述了整个领域中节点之间的关系。本研究在对dPCR主要主题词进行共词分析的基础上,将战略坐标与社会关系网络图结合,描述了整个领域的中心研究以及新兴领域,为研究者发展和使用这一新技术提供了帮助。
【参考文献】
[1]VogelsteinB,KinzlerKW.DigitalPCR[J].ProcNatlAcadSciUSA,1999,96(16):9236-9241.
[2]YaoQ,ChenK,YaoL,etal.Scientometrictrendsandknowledgemapsofglobalhealthsystemsresearch[J].HealthResPolicySyst,2014,12:26.
[3]HongY,YaoQ,YangY,etal.Knowledgestructureandthemetrendsanalysisongeneralpractitionerresearch:aCo⁃wordper⁃spective[J].BMCFamPract,2016,17:10.
[4]郭栋,黎檀实,刘辉,等.基于文献计量与共词分析的我军战伤救治模拟训练现状研究[J].军事医学,2020,44(1):1-6.
[5]ZhangC,YuQ,FanQ,etal.Researchcollaborationinhealthmanagementresearchcommunities[J].BMCMedInformDecisMak,2013,13:52.
[6]PiraveenanM,ProkopenkoM,HossainL.Percolationcentrality:quantifyinggraph⁃theoreticimpactofnodesduringpercolationinnetworks[J].PLoSOne,2013,8(1):e53095.
作者:杜奕溥1,2,赵勇1,杨瑞馥1,宋亚军1
转载请注明来自发表学术论文网:http://www.fbxslw.com/jjlw/29629.html