本文摘要:摘要:[目的/意义]在线健康社区中对高影响力用户的有效识别,有助于健康信息需求者发现有价值的健康信息,对于降低健康信息查找成本和提高健康行为决策的有效性具有重要意义。[方法/过程]从用户交互性和评论情感倾向出发,利用PageRank和SVM等算法构建出在线
摘要:[目的/意义]在线健康社区中对高影响力用户的有效识别,有助于健康信息需求者发现有价值的健康信息,对于降低健康信息查找成本和提高健康行为决策的有效性具有重要意义。[方法/过程]从用户交互性和评论情感倾向出发,利用PageRank和SVM等算法构建出在线健康社区用户影响力的测量方法,并以医享网为实验对象,从发布内容使用价值的视角,进一步计算了该社区中用户的综合影响力,并对案例用户进行分析。[结果/结论]分析结果表明该算法具有一定的合理性,能够对PageRank算法的影响力计算结果进行优化;同时,利用TFIDF和互信息算法揭示了高综合影响力用户发布的信息内容与社区其他用户群体内容主题基本一致,该类用户对社区的主题方向起到一定的引导作用。因此,通过本研究所构建的方法可以有效识别高影响力的用户,有助于健康信息需求者及时准确的发现所需信息,提高健康信息的使用效果,从而丰富在线健康社区用户信息行为的理论和实践研究。
关键词:PageRank 情感倾向在线健康社区用户影响力
1 引言
“互联网+医疗”发展战略是顺应时代的产物,也是向智能医疗转变的必经之路。用户不仅可以在线预约挂号、查阅资料,还能够得到意向领域专家的解答或者病友的经验传授与讨论,缩短传统医疗中寻根问药的时间成本,大大提高了用户的参与感与治疗效率。
健康论文范例:体检中心对亚健康人群健康管理模式的探讨
据医疗相关数据显示,2018年全国超过99万家卫生机构总会诊人次达到33.8亿[1],2019年在线咨询总量达5.6亿次,未来将持续保持上升趋势[2]。同时,《“互联网+医疗健康”发展的意见》[3]也鼓励在线健康社区运用互联网的相关技术加快实现资源互通、信息共享与远程医疗等服务,不断健全互联网+医疗的一体化服务体系,加强医院、医生与患者间的有效沟通。
目前,国内健康问题讨论规模较大的在线社区以医享网、39健康论坛与好大夫在线等网站为主,这些在线社区用户多,知识传播速度快,产生了大量的信息与数据,为健康信息需求用户提供了有价值的健康信 息。在线社区中存在一些活跃程度较高的用户,他们能够吸引到其他用户的关注和互动,从而在一定程度上影响其他用户的信息行为和健康决策,对于整个在线社区的信息传播具有较强的导向作用。
然而,用户的活跃程度与其所发布的信息的使用价值间并非存在直接关系,如一些用户具有较强的交互影响力,在社区活跃程度较高,求助和抒发情感等行为频繁,所发布的信息也受到较多关注,但其他用户对其评价不高,在一定程度上反映了其信息的使用价值有限;还有一些用户尽管交互活跃程度不高,但其所发布的信息受到的积极评价较多,其所发布的信息具有较好的应用价值。
因此,从信息使用价值角度出发,如何结合用户活跃性和交互情感倾向性识别来判断在线健康社区用户的综合影响力,对于帮助用户便捷、有效地利用健康信息,做出客观的健康行为决策等方面具有重要意义。本研究拟在融合用户交互活跃性和评论情感倾向的基础上,探索性地构建在线健康社区用户综合影响力的测量算法,并在相应的在线健康社区中进行实验和结果分析,以期为有效挖掘在线健康社区中有影响力的用户和有价值的健康信息提供一定的方法和参考。
2 相关研究
用户影响力的分析与测量是在线社交媒体和在线社区相关研究领域中,学者所关注的重要研究方向之一。目前关于用户影响力的相关研究主要采用特征值统计分析方法、社会网络分析方法以及PageRank方法等。
特征值统计分析方法主要通过统计能够反映在线社区用户活跃特征的相关特征值,并进行一定的指标和权重的设定,从而计算用户的影响力。如王佳敏等[4]在分析用户影响力时,主要统计了影响力指标和活跃度两个指标,其中影响力指标包括粉丝数、被转发数、被评论数、是否认证4个特征值,活跃度指标包括微博数和关注人数两个特征值。赵发珍等[5]利用博客的引用数量、回复数量、网页内外链接数等特征值进行用户影响力的建模。董伟等[6]也通过获取和分析在线社区中用户的留存时间、发帖量、粉丝数等反映个人和交互维度的相关特征值,对活跃用户进行了识别,并对其在社区中的影响力进行了分析。
社会网络分析方法主要通过关系网络结构中的属性值来计算各个网络节点在网络中的重要性,如网络密度、点度中心性、中介中心性、接近中心性及等。陈远等[7]通过分析社会网络的中心度、结构洞等指标来挖掘在线社区中用户的影响力。谢英香等[8]则通过对社会网络分析法中的中心度的分析,利用MDS等方法,分析了虚拟社区中的用户的影响力,并进一步揭示该社区存在意见领袖现象。S.Jonnalagadda[9]等则综合分析了点度中心性、点度中介性、以及点度紧密性等反映中心的指标,从而发现了医学在线社区中具有较大影响的意见领袖。
3 研究设计
3.1 研究思路
本研究的思路主要包括四个步骤,首先是利用数据爬虫对在线社区相关信息进行爬取,对数据进行预处理,并将最终可用的数据存入数据库,包括用户和评论信息两个方面。其次,是对用户的综合影响力进行计算,综合影响力主要包括三项子算法:①利用PageRank算法对用户的交互影响力进行计算;②通过选择最优情感分类模型,对评论信息进行情感归类与分析,并进一步对评论信息情感倾向值进行计算;③融合上述两内容的结果按照特定公式进行融合,并通过案例分析进行对比。再次,利用TFIDF与互信息算法进一步探究高综合影响力用户所生产的信息内容与社区其他用户群体内容主题方向的关系,并通过可视化的方法进行比较分析。最后,对本研究的研究过程和方法进行总结,并提出相应的研究展望。
3.2 数据获取与预处理
本研究以健康社区中的用户所发布的信息及其评论信息为分析对象,使用Python语言构建多线程爬虫工具,以Cookie参数与报头信息作为用户与浏览器表征工具,通过解析DOM树获得该社区中用户交流之间的相关内容,包括用户昵称、发帖内容与相应的回帖信息。
此外,进一步对相关数据进行预处理,如分词处理、用户编码映射表构建、用户评论映射表构建、用户评论者映射表构建、异常用户处理等。本研究拟以医享网社区的用户生成内容为例,并收集相应数据进行相关实验和分析。
3.3 分析过程与技术
传统PageRank算法中,较多考虑的是网站或者用户之间的交互关系与权重,并不对其本身质量进行分析,故本研究结合用户交互关系与用户评论等信息内容进行分析,一方面发掘潜在网络用户影响力排名;另一方面对用户情感倾向进行识别,并融合两者进行综合性探究。
4 研究结果
4.1 实验数据
医享网是国内在线健康社区中用户较多,可信度较高的社区之一,支持病例库查询,在线健康问题问答,其中痛风圈社区的内容交互较为频繁,论述相对全面[21]。故本研究设置医享网的痛风圈作为数据来源,收集时间为2020年2月,依据相关公开内容,设计爬虫程序进行数据抽取,具体数据主要包括用户昵称、发帖与回帖内容。
进一步对数据进行预处理,分词处理,即使用JIBEA对用户文本进行分词,以进行高频词统计和互信息模型构建;用户编码映射表构建,即对所有用户进行统一编码,如用户1、用户2等顺排至最后;用户评论映射表,即对用户所发表的评论内容进行对应;用户评论者映射表,即构建评论用户1、用户2等的用户评论映射表;异常用户处理即过滤掉评论或发帖与通风圈无关的用户,如推送广告用户等。经过最终预处理,共得到292位有效用户的2560条有效交互内容。
4.2.3 基于互信息的综合影响力用户文本内容分析结果
为进一步探究高综合影响力用户对健康社区主题方向的影响,本研究选取了前20个高综合影响力用户和社区其他用户评论内容进行实验,通过TFIDF与互信息两种算法,构建了该用户群的词条共现网络,为了更直观和清楚展示其关联效果与整体结构,借助Vosviewer软件对该共现网络进行了可视化分析。其中,疼痛、结晶、血症、高尿酸、发作、关节、止痛、代谢、含量等半径较大的15个节点代表高频词汇,而半径较小的其他节点分别表示每个高频词的10个互信息关键词,相连表示对应的一组数据。
高综合影响力用户主要关注的几个问题集中在三个方面,其一是当痛风病发作的时候的表现,如疼痛、临睡前、侵蚀、结晶、沉淀、磷脂、关节、神经等关键词均在不同方面说明了病症发生的症状、时间等内容;其二是治疗痛风所使用的药物,包括秋水仙碱、双氯芬酸钠、阿西美辛、戴芬、秋水仙、别嘌呤、抗炎药、止痛针等内容;其三,为了更好的治疗痛风所采用的食疗辅助,如特别注意龙须菜、菠菜、蘑菇、鲜豌豆类含嘌呤较多的蔬菜,蛤类、动物内脏、多饮水、少喝汤等。
5 总结与展望
5.1 研究总结
本研究从交互影响力和情感倾向两个视角出发,基于SVM算法的线性核函数建立了情绪识别模型,对文本有效性进行了识别与分析,并结合交互影响力与情感倾向性探讨了用户综合影响力,得出以下结论:
首先,本研究通过对用户交互影响力的计算,并结合相关案例,发现交互影响力更多强调了交互活跃性,但对于揭示用户信息资源的有效性方面存在一定不足,因此并不能完全客观的反映出用户的真实影响力,需要引入评论情感倾向值对影响力做进一步的融合计算。
其次,通过对比机器学习的五种关于情感计算的主要算法中,发现SVM算法对于本文构建的评论情感倾向分类模型效果最优,为有效的计算用户综合影响力提供了技术支撑。
再次,本研究探索性地将PageRank交互影响力与评论情感倾向进行融合计算,并通过相应个案分析从信息内容的角度对高影响力用户做了进一步验证,在一定程度上说明了本研究中的综合影响力的算法具有较好的合理性和适用性。
此外,通过对高综合影响力的高频词-互信息矩阵与其他用户群体的高频词-互信息矩阵的比较发现,二者相似程度较高,基本主题方向一致,这也在一定程度上说明了寻找高综合影响力用户的必要性,也进一步说明本研究的用户影响力综合计算方法可较为客观的识别出主导健康社区内容方向的具有较高影响力的用户,有助于健康信息需求者能够及时、准确从健康社区中获得所需有价值的信息,提升健康信息的利用效果。
5.2 研究展望
本文提出了一种情绪识别模型以探索用户生成内容的情感倾向,从而构建用户综合影响力的研究方法,并进一步通过具体内容分析论述了高综合影响力用户对社区方向的影响,但也存在一定的不足:
(1)交互影响力和情感分析算法的优化。本研究用户交互影响力主要基于PageRank算法,虽然该方法应用较为广泛,但其在分析用户影响力方面仍存在一定的改进空间,可在今后的研究中,结合用户行为特征对该算法做进一步的优化。此外,本研究中所用到的情感倾向分析的算法,今后可对更多的相关算法和框架进行比较分析,从而进一步提升相关计算的效率和准确性。
(2)研究数据的进一步丰富。本研究主要基于医享网的痛风病圈数据进行了研究,在今后的研究中,可以进一步扩展健康社区的数据获取范围,通过比较不同健康社区中用户综合影响力的分布和特征,以不断拓展和验证本研究的适用性。
参考文献:
[1]杨梓.最新!卫健委发布全国医疗相关数据[EB/OL].[2021-04-27].https://www.sohu.com/a/247593213_439958.
[2]2018年中国健康医疗大数据行业发展现状及发展趋势分析[EB/OL].[2021-04-27].http://www.chyxx.com/industry/201806/649591.html.
作者:董伟陶金虎
转载请注明来自发表学术论文网:http://www.fbxslw.com/jjlw/27301.html