本文摘要:摘 要:文章使用 CiteSpace5.7 分析软件,对中国知网(CNKI)检索出的 政府数据开放领域 521 篇相关文献进行统计及可视化分析,围绕作者分布、文献分布、关键词分布等进行知识图谱的绘制与规律分析,探寻 2009 年以来政府数据开放研究的现状、热点及态势,以期从广度和深
摘 要:文章使用 CiteSpace5.7 分析软件,对中国知网(CNKI)检索出的 “政府数据开放”领域 521 篇相关文献进行统计及可视化分析,围绕作者分布、文献分布、关键词分布等进行知识图谱的绘制与规律分析,探寻 2009 年以来政府数据开放研究的现状、热点及态势,以期从广度和深度两个维度全面了解、理解和深化该领域的研究范畴、研究方法、研究视域等方面的嬗变历程。
关键词:数据开放;知识图谱;研究热点;可视化分析
随着大数据、云计算、区块链等数据处理技术的不断发展,数据俨然已成为重要的生产要素和原料基石,从企业到政府部门,越来越多的实体开始探寻数据背后所蕴含的巨大价值。其中,政府各部门所收集到的数据是其掌握的核心资产和治国理政的重要依据。[1] 整合政府数据资源和加大政府数据开放已成为世界各国政府数据管理的基本共识。[2]
数据开放已成为政府治理水平现代化的重要推动力量,截至 2020 年底,我国省级、副省级和地市级政府数据开放平台已有 142 个,工作重点由 2018 年以前的建设与利用兼顾转变为在建设的基础上强调政府开放数据的利用。[3]
自2009 年数据开放运动以来,世界各地对政府数据开放研究的关注日益增多,该方面的学术研究成果也呈现增多的态势,我国学界和业界也开始探究政府数据开放的价值、模式、利用等。为了鸟瞰我国数据开放研究的热点、主题及趋势,本文使用 CiteSpace5.7 软件对 CNKI 平台刊载有关数据开放的文献进行梳理和可视化分析,并对未来研究态势予以探析,希冀能够为数据开放的后续研究提供视角与借鉴。
一、研究工具及数据来源
(一)研究工具
本 研 究 采 用 CiteSpace5.7 作 为 研 究 工 具。CiteSpace5.7 由美国德雷赛尔大学的陈超美教授研发并供学者免费下载使用,[4] 该软件基于程序语言 JAVA 编写,应用于分析某一研究领域的研究热点及趋势。CiteSpace5.7 利用信息可视化方法、文献计量学法和数据挖掘算法集成的基本原理,绘制可视化图谱、建立节点之间的关联来分析研究对象之间的共现关系与共引关系等。[5]
(二)数据来源
本文数据来源选自中国学术期刊网络出版总库(CNKI)文献全文数据。在 CNKI 的高级检索中以“篇名检索”为检索入口,检索词为“政府数据开放”或含“政府开放数据”,时间跨度为2009 年至 2021 年,去除会议报道、广告等与研究不相关文献,共获得有效文献 521 篇(2021 年5 月 7 日检索)。将目标文献按 CiteSpace5.7 所需参考文献格式导出并转码,得到本文研究的样本数据。
二、 研究现状
(一)文献增长分析
在 2009—2013 年发文量较少,均在 10篇以下;自 2014 年发文量逐渐增多,2017 年发文量达到顶峰,为 107 篇,中国知网给出预测 2021年度发文量将回升至 107 篇。在 521 篇文献中,包括核心(北大核心、CSSCI 等)期刊 265 篇,占文章总数的 50.86%,反映出政府数据开放研究整体质量较高。
(二)期刊区域划分文献
在期刊上的分布遵循布拉德福定律,它是定量描述科学论文在相关期刊中,集中与离散状况的一个规律。[6] 经计算,此次统计的 521 篇文献分布在 180 种期刊中,绘制布拉德福期刊分区表。分析表明,核心区、离散区和相关区三个区域的论文数量大体相当。核心区的论文来自期刊数量不多但平均载文密度最高的 6 种期刊。
相关区包括期刊数量较少,平均载文密度一般的28 种期刊,而离散区包括期刊数量最多而平均载文密度很低的 146 种期刊。三者的期刊数量之比为6 ∶ 28 ∶ 146 ≈ 1 ∶ 5 ∶ 25=1 ∶ a ∶ a2。本例布拉德福系数:a =5。即 : 6 ∶ 28 ∶ 146 ≈ 1 ∶ 5 ∶ 52。显然上述表达式与布拉德福定律相吻合,说明本研究领域的期刊分布规律符合布拉德福定律。
为进一步直观描述期刊的集中与离散现象,根据上表的相关数据,以 lgC 为横坐标,以每种期刊载文量的累计和 R(n) 为纵坐标,拟合布拉德福曲线。首先曲线前半段是一条上升的指数曲线,它对应为核心区;坐标为(0.7782,174)的点为核心区的拐点,拐点之后是一段线性上升的直线,分别为相关区、离散区。充分说明本研究领域的期刊分布规律存在着较为明显的集中与离散现象。应用布拉德福定律,建立了期刊区域划分模型和布拉德福曲线,数据拟合较为理想。无论是布拉德福期刊分区表,还是布拉德福曲线图,均验证了期刊的集中与离散现象。
其次,布拉德福系数 a 是反映任一学科期刊分布情况的重要参数,a 的值越大,核心效应越强,反之越弱,本领域内a ≈ 5,a 值相对较大,可以说其核心效应是显著的。他成员包括刘龙、周志峰等。此团队主要采取国内外政府数据开放现状进行对比分析的研究方法,将目光聚焦于政府数据开放的政策制定、价值体系构建和个人隐私问题保护等方面。[7][8][9] 以西南财经大学陈朝兵为中心的学者群体内其他成员包括郝文强等。他们主要应用理论模式(力场模型、轮流出价博弈模型等),聚焦于我国政府数据开放的路径选择及其优化等方面。
此外,显示几位高产作者合作较少,主要表现为学者黄如花、刘龙、周志峰之间存在学术交流与联系,但与其他发文量较大的学者(如陈朝兵、周文泓等人)合作较少;单独节点的学者较多,如陈美、郑磊等人,以上表明我国学者在数据开放的研究上沟通合作意识不足,学者之间并未形成紧密的学术团队,学者们的学术交流与合作亟待加强。
(三)发文机构分析运用 CiteSpace5.7 对文献发文机构进行可视化呈现和分析,汇总得到数据开放研究核心机构排名,挑选出国内发文量五篇以上的机构,可以看到国内机构主要分布在信息管理综合实力较强的几家高校的管理学院及其研究机构。武汉大学信息资源研究中心和信息管理学院以发文 22篇位列发文机构第一名,四川大学公共管理学院以18 篇的发文量紧随其后。研究机构之间也并未形成较为紧密的合作,从地域上来看较为分散。
三、研究热点研究热点
反映了某一研究领域的研究重点及方向,对于深入了解与分析这一领域的研究内容具有十分重要的意义。关键词作为一篇文献中内容的核心凝练,某一领域关键词出现频率较高就反映了这一领域的研究热点。[13] 关键词聚类分析是以关键词共现分析为基础,将关键词共现网络关系通过聚类统计学的方法简化成数目相对较少聚类的过程。[14]
本文通过关键词聚类分析的方法对数据开放的研究热点进行分析,以探求我国数据开放的研究热点主题。运行 CiteSpace5.7,设置节点类型为 Keywords,其它参数设置与作者参数相同,在关键词知识网络图谱的基础上,选取 LLR算法,得到如图 4 所示关键词聚类网络图谱,反映了我国数据开放领域的研究重点和热点。
政府数据开放政策与法规领域包含“政策研究”“政策体系”“法律法规”等关键词。数据开放是国家和政府进行民主化建设的有效方式之一,能够最大程度实现全社会数据资源的有效配置和充分再利用。[15] 陈朝兵等人选取美、英、澳、新四国为研究对象并运用文献分析法,提出了适用于我国政府数据开放监管的四条路径。[16] 黄如花等人以我国各部委政府数据资源管理政策文本为研究对象,采用质性研究方法,提出了基于生命周期的政府数据资源管理政策体系。[17]
目前,我国学者对数据开放的研究多是对国外发达国家的政府数据开放制度法规的对比研究,相对来说其他视角下的政府数据开放政策法规研究还较为缺乏。其次,另有部分学者也开始聚焦国内现有的数据开放政策并对其进行分析探究,来提出对策建议。从国外到国内,对于数据开放相关制度法规的多方位研究,使我国政府未来相关政策的制定更加科学和本土化。政府数据开放政策制度的完善与改进对数据开放的可持续发展具有重要意义,并将进一步推动政府数据开放工作的发展。
个人隐私保护领域包含“信息安全”“隐私保护”“个人隐私”等关键词。在数据开放工作进程中,信息安全是不可忽视的一环,安全性的高低将直接影响到数据开放的价值及可利用性。杜荷花从隐私政策角度构建了我国政府数据开放用户隐私保护评价指标体系,发现政府数据开放平台的隐私保护整体较差,用户隐私安全还面临着严峻的挑战。[18]
侯晓丽等人从政府角度出发,通过对当前较为典型的政府数据开放平台进行调研,重点探讨了数据开放过程中还存在的国家秘密泄露风险点。[19] 众多学者从不同角度出发,探究数据开放过程中的隐私保护和信息安全等问题,以期为数据开放营造更加良好的环境与氛围,为未来更多地方政府的数据开放提供前提条件。因而,如何保障“数据开放”中信息的安全性成为数据开放研究的热点主题。
生态学研究视角领域包含“信息生态链”“众创空间”“利益相关者”等关键词。随着数据开放研究的火热开展,学者陆续从不同的理论角度对数据开放进行深入的剖析与研究,其中政府数据开放生态体系作为一个概念被各界多次提及。陈姗姗等人基于众创空间的背景,从价值理论出发构建了实现政务数据价值的生态系统模型。[20]
赵需要等人从生态学和生态链视角出发,对政府开放数据生态链的概念、本质和类型进行了分析与阐述,明确了政府数据开放链及链上各主体之间的相互关系。[21] 生态系统视角下的研究更加宏观和注重实践,更能发现政府数据开放实际工作中所出现的问题。生态系统已成为一个热点研究方向,在上述学者对生态系统与数据开放交叉理论研究的基础上,在未来会得到进一步的发展,提升数据开放的价值,促进各产业的转型升级以及创新等。
实证研究“实证研究”领域包含“政策量化分析”“实证研究”“层次分析法”等关键词。实证研究可以有力地支撑定性理论。吴金鹏等人基于生态系统理论,构建了数据“供应—创新—消费”分析框架,经实证研究发现:治理能力、创新能力、公众参与是促进政府数据开放发展的关键因素。[22]
齐艳芬等人构建了城市政府开放数据行为的影响因素模型并选取部分城市政府的开放数据行为进行实证分析,发现企业、媒体、政府内部监管要求和其自身技术能力等对数据开放行为有较强的影响。[23]但在目前有关数据开放的研究中,实证研究还尚未得到较为广泛的应用,更多是基于理论的定性研究。但就本领域已有的实证研究发文年代来看,主要集中于近两三年(2019 年至今),加之由于大数据分析等技术的应用导致激增的数据量,可以推断实证研究在未来将会成为一个热门研究领域。
四、研究趋势
(一)研究主题变化的时间拐点突现词是某一个时间段内被引频次突然增多的关键词,可以用来反映某一时间段内的研究趋势。鉴于此,为进一步研究我国数据开放研究的发展趋势,运行 CiteSpace5.7,参数设置“Burstterms”。在 2011—2016 年间的突现词为“电子政务”;2011—2015 年间的突现词为“数据门户”;2018—2021 年间突现词为“政府数据开放平台”;2019—2021 年间突现词为“数据开放平台”。其中“数据门户”“政府数据开放平台”和“数据开放平台”突现率一直延续至今,可说明三者为我国数据开放目前研究的主要发展趋势,也是政府数据开放工作最直观地展现。
(二)研究主题变化的演进历程
除此之外,关键词时序图可以用来反映某一研究主题随时间变化的主要研究内容,也能够在一定程度上反映某一时间段内的研究趋势,因此运行 CiteSpace5.7,在关键词共现分析基础上,按时间片段生成关键词时序图谱。从中可看出在不同时期学者的关注点不同,因此,可以把我国数据开放研究的演变划分成初期探索性研究期、多元化扩展研究期、深入精细化研究期三个发展研究阶段,以更好地分析我国政府数据开放研究的发展阶段。初期探索性研究期(2009—2013 年)。
在 2009 年至 2013 年,关于政府数据开放的篇名检索,其研究与发文量较少,关键词类别较为单一。说明在此阶段,仅有少数政府有关部门、高校学者以及科研机构开始对数据开放有关问题进行了研究。初期主要围绕“数据开放”“公开”等进行探讨。由于技术上不成熟、观念落后、专业人才短缺等众多问题的存在,对数据开放的重视度不足,此时市场上也鲜有企业提及开放数据的重要性,造成研究内容单一,未成系统化 [29]。多元化扩展研究期(2014—2018 年)。在此阶段,发文量猛增,关键词类别逐渐丰富,数据开放已经受到学界的重视并陆续加大了研究力度。此阶段,众多学者开始从不同的学科领域对数据开放进行探讨,主要关键词类别有“开放政府”“大数据”“英国”“云计算技术”和“平台建设”等。白献阳等人基于大数据视角,根据政府数据开放政策体系框架对数据开放相关政策进行梳理,探析其中的问题并给出了改善建议。[30]
郑振宇以英国、美国等发达国家政府数据开放活动为研究对象,运用比较分析法,提出了推进我国政府数据开放的若干建议。[31]杨瑞仙等人针对我国当时现有的数据开放平台进行分析与研究,提出我国政府数据开放工作的若干建议和对策。[32] 总之,这一阶段的研究实用价值导向明显,重点关注我国数据开放的可行性,研究主要围绕数据获取与分析处理技术、国外政府数据开放建设、我国数据开放政策制度的制定等方面,但数据安全、公众参与等问题开始受到了一定的关注,数据开放研究领域逐渐多元化。
深入精细化研究期(2019 年至今)。这一阶段,数据开放研究进一步拓展,快速多元化,发文量均在 120 篇以上。这一时期的研究关键词主要类别有“实证研究”“政策与立法”“信息安全”和“突发公共卫生事件”等。朱晓峰等人运用 logistic 种群演化模型,选取武汉市政府数据服务网为研究对象,发现其和数据使用者之间存在相互关系。[33]侯晓丽等人从信息安全角度出发,对国家秘密泄露的风险点进行了识别,并提出了相应的保护策略。[34]
陈朝兵等人运用文献分析法,选取美英澳新四国为研究对象进行研究,提出了我国政府数据开放监管应从加快顶层设计、整合监管机构、打造多元协同监管格局、强化评估问责机制建设四个方面抓起。[35]相雅凡等人构建了突发公共卫生事件地方数据开放评估体系,对 30 个地区在疫情期间的政府数据开放工作进行评估,发现疫情严重性成为政府数据开放工作的阻碍等。[36] 与前一时期相比,这一时期的政府数据开放工作已成为政府的一项日常议程,并且在实践领域和理论研究层面都呈现多元化。众多学者的研究不仅关注到了政府数据开放的立法与政策的制定,也就其安全性和隐私性等进行了讨论,注重系统性的分析与研究。
五、结束语
本文采用 CiteSpace5.7 软件及文献计量学方法对政府数据开放研究的现状、热点及态势进行了系统化梳理与总结。数据开放领域的研究主题经历了由宏观性研究向具有可操作性的微观研究方向发展,从关注政府组织中的网络技术架构与管理衔接到以市场社会的用户需求导向,以解决我国政府数据开放的内在需求为起点和归宿的变迁过程。目前我国政府数据开放研究依然属于新兴领域,处于起步发展阶段,研究文献总量还较少,学术关注度仍相对较低。
参考文献:
[1] 周大铭 . 我国政府数据开放现状和保障机制 [J]. 大数据,2015,1(2):19-30.
[2] 任福兵,孙美玲 . 基于价值链理论的政府开放数据价值增值过程与机理研究 [J/OL].[2021-04-04] 情报资料工作
[3] 段尧清,夏立新,李玉海等 . 中国政府开放数据利用研究报告(2020 年)[R]. 湖北省 : 华中师范大学信息管理学院,2020.
[4] Chen C . CiteSpace5.7 II: Detecting andvisualizing emerging trends and transient patternsin scientific literature[J].Journal of the AmericanSociety for Information Science and Technology,2006,57(3):359-377.
[5] 胡金萍,吕芮 . 我国听障大学生研究热点主题及趋势探析——基于知识图谱的可视化分析[J]. 绥化学院学报,2020,40(1)43-47.
[6] 邱均平,刘敏 .1998—2007 年我国竞争情报领域论文的计量规律研究 [J]. 情报科学,2009,27(9):1281-1285.
[7] 黄如花,何乃东,李白杨 . 我国开放政府数据的价值体系构建 [J]. 图书情报工作,2017,61(20):6-11.
作者:赵需要 姬祥飞 樊振佳 刘军峰
转载请注明来自发表学术论文网:http://www.fbxslw.com/jjlw/30031.html