本文摘要:摘要:【目的/意义】在线健康社区已成为公众获取医疗信息和服务的重要形式。识别在线健康社区关键用户及其特征,为提升健康社区服务质量和效率提供理论依据。【方法/过程】基于信息行为学理论构建了包括交互行为属性、信息质量属性、情感倾向属性的多维分析框架,利用A
摘要:【目的/意义】在线健康社区已成为公众获取医疗信息和服务的重要形式。识别在线健康社区关键用户及其特征,为提升健康社区服务质量和效率提供理论依据。【方法/过程】基于信息行为学理论构建了包括交互行为属性、信息质量属性、情感倾向属性的多维分析框架,利用AttriRank算法和网络抗毁性评估方法识别在线健康社区关键用户。【结果/结论】在胆系癌症疾病QQ群中识别出15个关键用户。他们不仅具有高活跃性和高互惠度的交互行为特征,还具备多样性水平高且结构均衡的信息质量特征,且多数持有正向情绪倾向。“行为+内容+情绪”的分析框架和考虑属性的用户排序算法能准确识别在线健康社区关键用户,为在线健康社区的持续运营供了科学的决策支持。【创新/局限】构建多维属性分析框架进行在线健康社区关键用户识别,丰富了在线健康社区关键用户识别的理论体系。
关键词:在线健康社区;关键用户;属性融合;AttriRank算法;网络抗毁性评估
1引言
随着“互联网+医疗”及“健康中国2030”战略导向的发展,公民健康意识与信息素养正不断提升,促进了一系列在线健康社区的形成与快速发展,如甜蜜家园、百度高血压吧和以医疗健康为主题的QQ群、微信群等【1】。中国互联网信息中心发布截至2020年12月,在线医疗用户规模达2.15亿,占网民整体的21.7%,新冠肺炎疫情期间部分第三方互联网服务平台咨询量同比增长了20多倍【2】。
在线健康社区已逐渐成为了患者获取健康信息的重要渠道。病患及家属借助不同类型的在线健康社区平台与病友、医生、志愿者等进行交互,搜寻医生医院、治疗方案等信息。他们共同构成了在线健康社区,并在交互过程中不断学习和积累经验,实现了健康信息搜寻、交互、获取方式的进化。
研究结果显示,与知乎问答社区、Linux在线交流社区及Wiki编辑者社区等在线社区一样【3】,在线健康社区中也存在一类特殊用户【4】,对其存在和发展起到了重要的作用。他们通过积极提供健康知识、开展情感交流,带动新用户、潜伏用户积极参与在线活动【5】,是社区存在和发展的重要驱动力,被称为在线健康社区中的关键用户。由此,构建多维属性融合的在线健康社区关键用户识别方法并分析他们的行为特征,对提高在线健康社区的管理水平和服务质量有重要的参考价值。
2相关研究现状述评
在线社区上的关键用户可能是舆情传播中的“意见领袖”,也可能是某个特殊领域的自媒体。他们往往有大量的粉丝或关注者,由其提供的信息会有较大的概率被转发和评论【6】,进而能影响更多的普通大众。所以已有研究成果主要考虑了关键用户在社会网络中的结构位置进行识别,如:在线社会网络中节点的度数、介数、特征向量中心性等【7-9】,其优势是评价方法比较客观,但是评价指标比较单一。而在线健康社区(OnlineHealthCommunity)是一类特殊的知识型在线社区,医生、患者及其家属都可以在不受时间和空间条件的约束下,用发文、回复、点赞、转发等形式完成健康信息或者专业医疗知识交互【10】。
因此,在线健康社区上的关键用户不仅在社会网络中位置重要,还能提供医疗领域知识并促进用户之间的交流【11】。所以从信息行为学视角出发,识别在线健康社区中的关键用户需要综合考虑用户的交互行为、内容和主题、甚至情感等多个维度【12-13】。在线健康社区用户行为研究涉及了用户搜索行为、分享行为和交互行为等方面。早期的用户行为研究通过调研和统计分析方法,解释了用户的健康信息行为动机,认为利他主义、享受、自我价值等满足感会对用户的医疗知识共享行为产生显著正向影响【14-16】。
随着在线健康社区应用的普及,研究热点迁移到用户的交互行为。刘璇等【5】研究了在线健康社区用户的回帖行为,发现活跃度比较高的用户在后续交互中获得回复的概率比较大。这说明了高活跃度用户是在线健康社区交互关系产生的动力【17】。
此外,从社会互惠理论视角来看,在线健康社区的用户在利他心理的驱动下,通过交互行为能够实现信息价值资源的交互,比如:疾病治疗的专业建议和情感支持。用户所持有的互惠交互模式也是维持在线社区运营的重要社会性规范之一【4】。
健康信息内容也是在线健康社区研究的一个重要分支。学者们主要采用文本挖掘、机器学习等方法对健康信息内容或主题分布进行识别、分类、统计等分析【18-21】,并关注到较差的信息质量【22】不仅会影响用户参与社区交互行为的发生,还会直接导致社区用户流失。由于在线健康社区是一种典型的UGC社区,用户是提供知识和信息的主要来源,故而用户所持有的信息质量高低就决定了在线健康社区专业领域知识服务的水平。
一般而言,评价一个用户信息质量可以从信息内容多样性和信息结构均衡性两个方面出发。如:范昊等【23】研究发现在YahooAnswers社区中,有些关键节点虽然度比较大,但其贡献的内容比较单调,使得社区交互结构比较松散;翟羽佳等【24】研究则表明,百度戒烟吧由于中高活跃用户贡献的信息不均衡,导致论坛话语权偏移,阻碍了新用户的参与。因此,信息质量是识别在线健康社区中关键用户不可或缺的维度。
此外,在对用户的信息需求进行研究时发现,在线健康社区上的患者及家属不仅需要专业知识的支持,情感支持和陪伴【25】等也十分重要。Beaudoin等【26】通过研究在线健康社区中的情感支持对癌症病人情绪的影响,发现在线健康社区确实能够减少癌症病人的负向情感。同时,患者之间的交互行为可以将用户的负向情感逐渐转变为正向情感,表明在线健康社区可以给患者及家属提供必要的情感支持【27】。
因此,对于在线健康社区来说,用户情感属性也是关键用户识别的重要维度。综上所述,目前对在线健康社区的关键用户识别研究还较少,需要从“行为+内容+情绪”等多维度综合考虑开展研究。鉴于此,本文从信息行为学角度出发,构建了交互行为属性、信息质量属性和情感倾向属性指标;然后基于Attri⁃Rank算法和网络抗毁性评估方法进行关键用户的识别和检验,并分析了关键用户的基本特征。
3研究设计
3.1关键用户识别和分析框架
本文设计了在线健康社区关键用户识别和分析框架。根据信息行为学理论,提出“行为+内容+情感”的多维度分析框架,构建用户交互行为属性、信息质量属性、情感倾向属性。其次,根据在线健康社区用户交互行为数据,构建用户交互网络并计算用户交互行为属性;根据在线健康社区用户的信息内容数据,结合百度名医百科文本内容及医学词典生成用户交互关键词,用pkuseg切词工具和LDA主题技术识别并抽取在线健康社区的主题,并用基于词典的情感极性分析方法分析用户情感属性。然后,基于AttriRank算法对用户进行评分和排序,通过网络抗毁性评估和检验社区内的关键用户效用,并分析关键用户的属性特征。
3.2用户属性
在线健康社区中的用户可以通过提问、回答、评论等在网络上进行交互。以用户作为节点,用户之间的交互关系作为连边,两者构成了一个复杂的交互网络,可以记为G=(V,E)。其中V是交互网络中的节点集合,且V中的每个节点i均具有交互行为属性、信息质量属性和情感倾向属性。E是用户交互关系构成的有向边集合,∀e ∈E,表示节点i提及(@)、转发或者评论节点j的信息,即节点i主动与j进行交互。
3.3关键用户识别方法
3.3.1AttriRank算法
AttriRank是同时考虑网络结构和网络中节点属性的无监督节点重要性排序方法【29】。该算法以PageRank算法为基础,同时考虑节点的多维度属性,对网络中的每个节点进行打分。
4实例及分析
4.1数据集简介
本文选择了肝胆外科中胆系癌症QQ群社区为研究对象,它是国内较大、人数较多、交流较为活跃自发病友群,共包含2780个用户,涉及30个省市(台湾、西藏、香港和澳门除外)。本文收集了社区内2020.07.01-2020.12.31共6个月的聊天文本,共获取197649条有效数据。由于胆系癌症发病率低且恶性程度高,患者和家属对此病症知识了解途径比较少,所以在QQ群社区中,用户间交互比较频繁。
一般而言,用户可以根据社区中的上下文随意加入到聊天列表中。另外一种方式是用户通过@提及某个特殊用户,进行提问或者回答等交互。由此,将QQ群社区中用户作为交互网络的节点,根据第二种交互方式生成有向边添加到交互网络。最终该健康社区的交互网络由2780个节点和11000条有向边组成,过滤掉孤立节点后得到社区最大连通分量图。
节点的大小与该节点度的大小相对应。交互网络结构统计结果为:节点平均度为3.957,即每个用户会与3至4个人发生交互;模块度为0.173,说明用户交互中形成了明显的社区结构;平均路径长度为2.698,聚类系数为0.17,两者表明该交互中存在较短的信息传输路径,可以使健康信息在社区中快速传播。此外,根据在线健康社区用户的聊天内容数据,结合百度名医百科文本内容及医学词典生成用户交互关键词集合KW,包含关键词89516个;用pkuseg切词工具与LDA主题技术结合,识别并抽取在线健康社区的主题集合Γ,共包含6个主题。
在双对数坐标系下,多样性值较小的用户均质性值比较分散,多样性值偏大的用户均质性接近1。也就是对于普通用户而言,受到自身知识背景、病程、病症等因素影响,他们聊天内容涉及的信息量和主题范围有较大的局限性。而关键用户则是要给不同病程和病症的患者和家属提供健康医疗知识,所以其信息多样性和均质性值均名列前茅。
有70.1%用户的情感倾向度值低于m-,29.9%的用户情感倾向度值高于m-。其中,关键用户的情感倾向度均处于较高的水平:情感倾向度的最小值是0.64476,是均值的1.5142倍,情感倾向度的最大值是2.51826,是均值的5.91418倍。此外,关键用户情感倾向度主要集中在1附近,表明关键用户在交互过程中倾向于表达正向情感,且没有明显的极端性,这对于维持良好的社区氛围起到了重要的作用。
5结语
本文研究在线健康社区关键用户识别和特征分析问题。首先为关键用户的识别构建出多维融合属性指标体系,从交互行为属性、信息质量属性和情感倾向属性三个维度,构建了用户的活跃度、互惠度,信息的多样性、均质性,情感倾向 度等5个分析指标。其次是构建关键用户识别方法,诸如PageRank等经典的关键用户识别算法不适用于在线健康社区,应结合用户多维属性开展在线健康社区关键用户识别和特征分析。
因此本文在AttriRank算法基础上获取用户评价结果和排名,通过网络抗毁性评估方法识别在线健康社区关键用户。本文以胆系癌症的患者和家属自发形成的QQ群社区为研究对象开展了实证验证,在胆系癌症QQ群社区中识别出15个关键用户。
研究结果表明:第一,在线健康社区中的关键用户比普通用户有较高的交互意愿,他们的作用不仅体现在与普通用户发生交互,而且还是社区中健康信息和医疗知识的主要传播者;第二,在线健康社区中的关键用户不仅比普通用户拥有更多信息,而且信息结构更均衡,是社区中主要的知识和经验来源及载体;第三,在线健康社区中的关键用户极少有极端情绪表现,能给普通用户提供适度的正向情感支持。在未来的工作中,可结合时间感知框架设计动态环境下的关键用户识别算法,进一步提高健康信息服务水平,为促进社区发展提供更多的合理建议。
参考文献
1赵栋祥.国内在线健康社区研究现状综述[J].图书情报工作,2018,62(9):134-142.
2中国互联网络信息中心.第47次中国互联网络发展状况统计报告[EB/OL].[2021-02-03].
3柯阳,隋杰.基于用户特征属性的微博话题关键用户挖掘[J].计算机应用研究,2019,36(6):1614-1617,1622.
4吴江,周露莎.在线医疗社区中知识共享网络及知识互动行为研究[J].情报科学,2017,35(3):144-151.
5刘璇,汪林威,李嘉,张朋柱.在线健康社区中用户回帖行为影响机理研究[J].管理科学,2017,30(1):62-72.
6席海涛,聂文博,李闺臣,田慧敏,陈立.在线健康社区用户交互的研究现状与进展[J].情报科学,2021,39(4):186-193.
7FREEMANLC.Asetofmeasuresofcentralitybasedonbetweenness[J].Sociometry,1977,40(1):35-41.
8FREEMANLC.Centralityinsocialnetworksconcep⁃tualclassification[J].SocialNetworks,1978,1(3):215-239.
作者:张军,李新旺,李鹏
转载请注明来自发表学术论文网:http://www.fbxslw.com/jjlw/29626.html