科研人员视角下科学数据安全风险识别框架探究

所属分类：经济论文阅读297次时间：2021-07-31 15:38

本文摘要：摘要：科学数据作为科学研究的重要组成部分，科学数据的潜在安全风险影响着科学研究每个过程的研究结果。采用访谈法，对分布在10个学科门类、42个学科大类的51位科研人员进行访谈，借助NVivo11Plus质性分析软件，结合扎根理论方法，对51个访谈文本进行编码，

　　摘要：科学数据作为科学研究的重要组成部分，科学数据的潜在安全风险影响着科学研究每个过程的研究结果。采用访谈法，对分布在10个学科门类、42个学科大类的51位科研人员进行访谈，借助NVivo11Plus质性分析软件，结合扎根理论方法，对51个访谈文本进行编码，构建科学数据安全风险识别框架，按照维度剖析科研人员在科学研究过程中的行为思想、外部环境与科学数据安全风险的关系结构。第一，科学数据生命周期的不同阶段呈现的科学数据安全风险存在异同点;第二，科研人员最关注科学数据收集阶段、科学数据处理阶段、科学数据存储阶段的安全;第三，政策、资金、设备、平台、数据五个维度是科学数据安全风险的影响因素;第四，资金、设备是科学数据安全的基础保障。据此从科学数据生命周期的角度为科研人员在科学研究过程中规避科学数据安全风险提出对策。

　　关键词：科学数据数据安全科研人员扎根理论风险识别

科学数据安全

　　在数据驱动型科学研究背景下，科学数据在各学科门类的运用频率明显提高，对科研人员而言科学数据是科研成果产出的必要条件。近年来从大数据研究[1-3]的热点话题过渡到现今悄然兴起的数据科学[4-5]话题，无一不强调数据在科学研究中的重要作用，与此同时，科学数据管理正在引起学界的热切关注。当科学数据成为科学研究的重要部分时，其重要性包括：第一，过程数据直接影响科学研究成果的价值，间接影响过程数据的潜在价值;第二，成果数据是一项研究成果，直接影响产权归属。自然科学中更加强调科学数据的重要性，科研人员倾向于关注过程数据安全，过程数据安全不仅与科研人员自身行为有关，还与外界环境密切关联。

　　为帮助科研人员规避科学数据安全风险，本研究以10个学科门类、42个学科大类的51位研究生与教师作为访谈样本，利用NVivo11Plus分析访谈文本，结合扎根理论方法，归纳出访谈文本中的概念、范畴、主范畴、维度，从科研人员角度出发，探究影响科学数据安全风险的因素，构建科学数据安全风险识别框架，梳理影响因素间的关系结构，为数据驱动背景下，社会人文学科与自然科学学科的科学数据安全风险规避提供理论依据。

　　1综述

　　科学数据管理的实践体现在相关法律、法规、管理办法的发布等方面，我国已经颁布《中华人民共和国国家安全法》《中华人民共和国网络安全法》《科学数据管理办法》《数据安全管理办法》《中华人民共和国数据安全法》。国外为了完善和规范数据信息保护体系，出台了与数据、信息相关的法律，比如英国早在1998年颁布的《数据保护法》用于维护数据安全，欧盟实施了《通用数据保护条例》，德国出台《联邦数据保护法》，加拿大的《开放数据指令》，美国出台的《数据泄露通知法》。目前与数据相关的法律、法规、管理办法以维护国家安全、商业机密、个人隐私安全为主。

　　我国科学数据管理正处于萌芽状态，科学数据安全的潜在威胁因素包括科学数据安全利益相关者的安全意识薄弱、重要科学数据外流、科学数据基础设施水平落后[6]、国外政府非法监视[7]，科学数据安全治理体系有待完善。科学数据管理在高校、科研机构、国家基金组织、科研资助机构较为活跃[8]，比如约翰霍普金斯大学、哈佛大学、伦敦帝国理工学院、悉尼大学、南洋理工大学为科学数据管理设置负责角色与职责，其中不乏建立科学数据存储库的高校。国家基金组织、科研资助机构包括美国国家科学基金委(NSF)、美国国立卫生研究院(NIH)、英国研究理事会(RUCK)、英国医学研究理事会(MRC)，均出台了科学数据管理相关政策，目的是作为科学数据安全的保障机制。

　　此外，荷兰数据归档和网络服务中心(DANS)为人文学科提供数据开放获取和持续访问的服务[9]。学界基于高校进行科学数据管理的研究较多，比如有学者认为科学数据管理服务由图书馆提供，因此从学者工作经验的视角开展调研，构建出基于四螺旋模型的高校科研数据知识服务风险管理体系[10];杨燕发现在行为学视角下高校教师在科研过程中的不规范行为影响着科学数据安全管理[11];焦红发现生物领域的科学研究复用科学数据是普遍现象[12]，说明复用科学数据在一定程度上减轻了数据获取难度，同时能够保证科学数据质量。高校的科学数据管理政策是科学数据安全的制度保障[13]，因此调研高校科学数据安全政策并构建为高校服务的科学数据安全内容框架是必要的[14]，其中研究数据相关政策的目的包括但不限于以下，完善我国在国际层面的数据跨境管理体系[15-18]，强调数据政策是保护个人数据的关键[19]。

　　此外在数据共享层面的安全问题，有学者基于科学数据共享过程，详述用于保护科学数据安全的关键技术[20];李斯[21]使用问卷调查法调研图书情报领域的科研人员对科学数据共享的感知风险后发现，科研人员是最易于感知数据滥用和侵权风险的主体;盛小平[22]就数据共享阶段的数据机密性、完整性和可用性问题，提出了科学数据安全治理模型;基于区块链与智能合约的科学数据安全溯源方法[23]的实现有助于保障数据共享阶段的数据质量;还有学者细分出开放数据质量面临的挑战[24]，通过网络调研发现数据完整性决定着数据质量[25];为了保证数据质量，Abella[26]使用模型评估巴塞罗那开放数据门户的数据质量。

　　数据中的隐私问题也是学界关注的热点，研究场景包括政府数据[27]、情报数据[28]、科学数据[29]、社交网络数据[30]，其中暗含着数据与隐私的联系。数据是国家安全不可分割的重要组成要素，科学数据安全是数据安全的一部分，关于科学数据安全的研究集中在科学数据共享阶段，研究内容通常以高校内的科学数据相关政策为主，未将与科学数问卷调查为主，研究视角、研究方法具有局限性，系统性探索科学数据安全风险及其驱动因素的研究较少。本文从科研人员的角度出发，构建面向科学数据生命周期的科学数据安全风险识别框架。

　　2研究方法与数据来源

　　2.1研究方法

　　科研人员是指在一个专业或领域内具备高水平职业素养与知识的同时专门从事科学研究工作的个人。科学数据安全风险是指科学数据在科学研究过程中因为外部环境的改变使得科学数据自身受到损坏、泄露、丢失[31]，或者数据防护设施遭到破坏，从而导致一系列损害国家、社会、科研人员等利益相关者合法权益的影响。

　　扎根理论作为定性研究方法强调收集与归纳的过程，弥补定量研究一味强调客观性与普遍性的局限。本研究借鉴Strauss和Corbin开发的程序化版本[32]，通过访谈科研人员获取原始资料，逐步进行开放式编码、主轴编码、选择性编码，将49份共10.2万字录音文本内容逐步概念化、范畴化与主范畴化。为了确保研究结果的可信度，将剩余2份专家录音文本用于理论饱和度检验。总共51份样本来自于10个学科门类，42个学科大类。最后构建出科学数据安全识别框架。该研究目的包括：①探索科研人员在科研过程中涉及的影响科学数据安全的行为与要素。②分析影响科学数据安全的行为与要素之间的联系与运作机理。

　　2.2数据收集

　　第一步，结合前期文献调研设计访谈提纲。第二步，完成预访谈后，完善访谈提纲，用于正式访谈。第三步，寻找各学科合适的访谈样本。访谈方式采用面对面与电联两种，访谈过程采取“点-线-面”的递进式提问方式，根据受访者回答情况进行问题微调与合理追问，还原受访者在整个科研过程中涉及科学数据的真实感受，揭示科学数据安全风险的影响因素。数据收集工作开始于2020年12月，结束于2021年3月，历时约4个月，访谈对象为高校科研人员。

　　在此过程中，以访谈为基础，并结合《科学数据管理办法》、CSDN网站关于数据安全的博文补充访谈中的提问，验证受访者回答的有效性。本文设置50个个别访谈与1组小组访谈，补充小组访谈的原因在于激发对方表达欲，鼓励成员表达不同观点，其中平均每个个别访谈的时长近20分钟，小组访谈的时长近30分钟。最后将录音转化成文本格式，标记关键语句，采用质性分析软件NVivo11Plus完成原始资料的编码，归纳相关的范畴，最后根据范畴间的联系将范畴进行关联。

　　3研究结果

　　3.1开放式编码与主轴编码

　　遵循开放式编码原则，首先阅读录音文本与笔记内容，对其中内容进行通读后，标记具有核心语义的句子或词语，并从中提取语义重复性大于两次的词语，作为概念。

　　基于开放式编码，对范畴进行清洗，剔除形成概念次数少于两次的范畴，整合初始概念意思相近的范畴，此过程逐渐脱离访谈录音文本，向理论研究靠近，归纳出科研人员在科学研究过程中因自身行为、外界影响等因素导致科学数据生命周期阶段出现安全风险的主范畴。数据收集、数据组织、数据处理、数据存储、数据传输、数据共享、数据销毁阶段得到的主范畴分别为7个、3个、6个、6个、4个、4个、4个，共归纳出科研人员、政策、资金、设备、平台、数据六个维度。

　　3.2选择性编码

　　选择性编码的主要目的是探寻主范畴间的关系，从中发现核心主范畴，该过程是构建科学数据安全风险识别框架的基石。本研究的目的是探究科研人员视角下科学数据安全风险的形成机理，核心主范畴是“科学数据安全风险”，比较分析科学数据安全生命周期7个阶段的主范畴后，归纳得出6个维度(科研人员、政策、资金、设备、平台、数据)。

　　3.3理论饱和度检验

　　本研究使用剩余2份访谈录音文本进行理论饱和度检验，并邀请了图书情报与档案管理、国际贸易专业的两位研究生再次对访谈录音文本重新进行扎根，均发现检验结果所产生的概念、范畴、关系仍然属于早先产生的概念、范畴、关系范围，没有新的概念、范畴或关系产生，因此可以证明此次扎根理论编码阶段的概念、范畴、关系达到饱和。

　　4科学数据安全风险识别框架

　　通过上述开放式编码、主轴编码和选择性编码3个步骤得到了6个维度，包括科研人员、政策、资金、设备、平台、数据，将维度按功能分成5个层次，构建出科学数据安全风险识别框架，适用于科研人员的科学研究场景，从六个维度引导科研人员规避科学数据安全风险。科研人员是与科学数据产生直至销毁接触最为密切的主体，对科学数据安全风险抵御具有直接影响;政策是指政府层面制定的科学数据管理政策，对科研人员起到约束与规范作用;资金是购买先进仪器设备、数据库等软硬件设备的保障;设备是维持软件稳定运行、数据稳定存储的条件;平台包括数据系统、数据库、数据存储库等数据来源与保存渠道;数据是科学数据的上位概念，也是科研成果之一，其潜在价值有待挖掘，可以循环利用。

　　5对策与建议

　　科学数据安全风险识别框架的依据最初来自科研人员，最终又为科研人员服务，旨在帮助科研人员识别并规避科学数据安全风险，主要基于科学数据生命周期理论与2021年9月1日起施行的《中华人民共和国数据安全法》[37]，因此具有一定程度的理论价值与指导意义。基于科学数据生命周期为科研人员保护科学数据安全提出以下七点建议：

　　(1)科学数据收集阶段，要求科研人员合法收集科学数据，保证科学数据合法性与可用性[37]。收集的原始数据强调质量，包括数据全面性、数据准确性、数据真实性。落实上级制定的数据安全管理规范，必要时需要结合科学研究主观与客观环境制定细则，内容包括责任主体及职责、软硬件设备管理、实验室管理、数据管理流程。

　　(2)科学数据组织阶段，科研人员养成良好的数据组织习惯，按规定格式命名文件，命名时避免出现个人信息，保证数据保密性。按科研进度与科研项目将文件进行归类整理，及时迭代数据，保证数据有序性，减少错误使用数据的情况出现。

　　(3)科学数据处理阶段，对硬件设备进行定期维护是有必要的，保持硬件稳定性，防止在数据处理过程中硬件出现突发情况而导致数据丢失问题。科研人员要提高知识产权意识，尽量使用正版官方软件，保证软件稳定使用，以及规避他人在软件中藏匿病毒而导致数据泄露的风险。同时，提高数据保密意识，防止他人抄袭数据的情况出现。科研人员要有自我道德约束能力[37]，遵守安全管理规范，保证数据质量过关、数据合法、数据可用，避免在科学数据共享阶段出现研究成果争议的情况。

　　(4)科学数据存储阶段，对于科研人员个体而言，培养及时备份、多备份的特质。严格数据保存流程，加密电脑、服务器等数据保存设备，规避数据误删、数据泄露、设备被盗的风险。定期维护实验设备，对存储载体开展安全监测，来降低数据丢失、个人隐私被盗的概率。(5)科学数据传输阶段，现状是科研人员通常使用社交软件传输数据，忽略了社交软件个人账号容易被盗的弊端，从而发生数据泄露。从数据安全角度出发，建议使用专业的传输软件，避免因文件过期、文件杂乱、传输损耗导致的数据丢失，避免数据篡改[38]。科研人员在此阶段同样需要注意对数据进行保密，规范行为道德，杜绝泄密现象。

　　(6)科学数据共享阶段，执行层要做好数据源头清晰化的工作[37]，回答是什么数据，为什么采用此数据，数据从哪里来，数据产生于何时，数据产生于谁，数据怎么产生六个问题，为科学数据共享符合FAIR原则创造前提条件。(7)科学数据销毁阶段，主要从数据销毁彻底性、保密性的角度考虑。科研人员遵循数据保密协议，并且按照数据销毁规定，规范地销毁数据;定期更新与清理数据，消除影响科学数据准确性的无效数据。

　　6结语

　　我国科学研究正在壮大起来，数据时代的到来，意味着科学研究与数据的融合将愈发紧密，科学数据安全风险识别机制也逐步被学界关注。本文聚焦科研工作者，扎根科研过程，从中发现被科研人员忽视的科学数据安全风险，研究科学数据安全风险诱发因素，探究科学数据安全风险诱发因素间的关系内涵，构建了科学数据安全风险识别框架，通过科研人员、政策、资金、设备、平台、数据间的协同配合，提高科研人员使用科学数据安全风险识别框架的可操作性，为科研人员规避科学数据安全风险提供参考。

　　图书馆论文范例：论我国图书馆学发展的数据化趋势

　　本研究从理论层面构建了科学数据安全风险识别框架，尚未从实践应用的角度对该模型进行补充、修正、完善和验证。未来计划面向科研人员群体使用问卷调查法，调研目前科研人员对科学数据安全的认识深度与广度，了解科研人员关注的科学数据生命周期阶段与科学数据安全风险点。基于前期收集的问卷数据，使用Amos软件进行科学数据安全的一阶验证性因子分析、潜在变量间作用机制标准化模型分析、二阶验证性因子分析，以此进一步检验科学数据安全风险识别框架的可行性。随后使用Vensim绘制系统动力学因果回路图，将二阶验证性因子分析中的路径系数、因子载荷、问卷数据作为方程初始值参考，进行模拟仿真，探索与科研人员相关的科学数据安全影响因素间的关系，修正科学数据安全风险识别框架。

　　参考文献：

　　[1]梁宇,郑易平.大数据时代信息伦理问题与治理研究[J].图书馆,2020(5):64-68,80.

　　[2]BalbinP,BarkerJ,LeungCK,etal,Predictiveanalyticsonopenbigdataforsupportingsmarttransportationservices[J].ProcediaComputerScience,2020,176:3009-3018.

　　作者：刘桂锋阮冰颖苏文成