本文摘要:本篇文章是由 《电子器件》 发表的一篇电子论文,(双月刊)创刊于1978年,由东南大学主办。本刊主要向国内外介绍有关电子学科领域的新理论、新思想、新技术和具有国内外先进水平的最新研究成果和技术进展。本刊发扬学术民主,坚持双百方针,为促进国内外学术
本篇文章是由《电子器件 》发表的一篇电子论文,(双月刊)创刊于1978年,由东南大学主办。本刊主要向国内外介绍有关电子学科领域的新理论、新思想、新技术和具有国内外先进水平的最新研究成果和技术进展。本刊发扬学术民主,坚持双百方针,为促进国内外学术交流、促进电子科学技术快速发展和国民经济建设服务。
摘 要: 网络是一个包含了大量个体及个体之间相互作用的系统,近年来在对复杂网络的研究过程中,科学家们发现了众多的幂律分布现象。不仅网页的点击次数存在幂律分布现象,微博也同样存在着幂律分布现象。利用新浪微博的API技术抓取了新浪微博数据,对其进行了详细的数据清理和统计,对统计结果进行分析发现,新浪微博的转发数也同样存在着幂律分布现象。只有为数不多的微博,才能被大量的阅读和转发,进而成为热点微博,而绝大多数微博的阅读次数和转发次数都是非常少的。
关键词: 新浪微博; 转发数; 幂律分布; Zipf定律
0 引言
全球复杂网络权威、无尺度网络的创立者、匈牙利计算机学会冯·诺依曼金质奖章获得者Barabasi揭开人类行为背后隐藏的 “爆发”模式,指出人类活动模式不是随机的,而是具有“爆发性”的。爆发的本质规律就是幂律分布。幂律分布现象的共性是绝大多数事件的规模很小,而只有少数事件的规模相当大。著名的Zipf定律是幂律的主要形式之一,哈佛大学的语言学专家Zipf发现,如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系。这一定律表明:只有极少数的单词被经常使用,而绝大多数单词很少被使用。幂律分布的通式可记为y=cx-r,重要特征是个体的尺度相差悬殊,缺乏一个具有代表性的规模,或者说,存在“爆发”(或称“涌现”)现象。
本文抓取了新浪微博的微博数据,并获得转发数,对微博的转发现象进行统计并试着分析产生该现象的原因。
1 抓取数据来源说明
数据来源于新浪微博8月份实时微博。考虑到每天新浪微博的数据量巨大,每天新产生微博约1亿条左右。随机抽样需要样本空间巨大。所以我们采取随机抓取关注列表里的820人的微博
1.1 数据抓取技术
数据的抓取是基于新浪API的信息获取。新浪微博 API 是应用编程接口(Application Programming Interface)的缩写。开放API就是“在互联网时代,把互联网产品的服务封装成一系列计算机易识别的数据接口开放出去,供第三方开发者使用”。微博开放平台包含了新浪微博平台海量的微博信息、用户间的关注关系以及随时随地信息的扩散式的传播机制。通过API,用户可以实时地获取监控微博账号的各种相关数据,包括微博的转发数,评论数等。用户使用新浪微博API的前提是需要通过身份认证。OAuth用户身份认证:开放授权(OAuth)是一个开放标准,允许用户让第三方应用访问该用户在某一网站上存储的私密资源(如照片、视频、联系人列表),而无需将用户名和密码提供给第三方应用。因此,OAuth 为新浪微博API提供了一个安全、高效的认证机制,其具体过程如下。
⑴ 用户向新浪微博开放平台提出开发者服务申请,提交实名身份认证。
⑵ 向新浪微博开放平台OAuth服务商提交创建应用请求,获得应用资料,并将其中的应用编号App Key和应用口令App Secret写入认证程序配置文件。
⑶ 利用新浪微博 SDK 提供的认证程序,向新浪微博服务器提交API使用申请,填写申请者微博账号、口令,获取第三方软件应用许可。
⑷ 申请成功后,服务器在浏览器返回URL地址中提供一个由32位十六进制数组成的认证码Access_code,用户将此认证码提交给认证服务器,服务器同意用户请求,
向其颁发通过新浪微博授权的API调用令牌Access_Token与对应的密钥。
⑸ 用户利用此令牌作为参量调用相应的API接口。通过上述OAuth认证登录新浪微博开放平台成功后,用户便可调用开放平台的各种接口,令牌使用期限为24小时,超过期限后需重新进行认证才能继续调用API接口。
1.2 转发数获取
2 数据统计分布情况
所统计的微博数量去除重复后,共计4253条。以2000为区间单位,统计转发数落在每个区间内的微博条数。统计表明,以转发数在0-2000区间内的微博最多,共计3963条。最少的转发数区间的微博条数为0条,极差为3963。按微博转发数分段统计情况如表2和图2所示。可以判断,转发数的分布范围很大,一定程度上符合Zipf定律,存在“爆发”现象。
从表2和图2可见,微博转发数分布较大程度上符合Zipf定律。热门的微博非常少,越冷门的微博数量越多。其中,转发数在区间0-2000的微博数明显高于其他区间,可视为“爆发点”。在该区间内,主要分布的大多是粉丝人数较少的用户发布的微博,没有庞大的粉丝基础,所以转发数普遍很低。还有一部分微博虽然是有粉丝数较多的用户发布的,但是该微博不能吸引用户的兴趣,不能成为热点事件,转发数也就普遍偏低。其中转发数最高的微博为张杰在发布新单曲“我在这”时,自己在路上边走边拍摄的一段视频,该微博转发数介于82000-84000区间。
3 原因分析
新浪微博中的幂律分布现象属于复杂网络中普遍存在的幂律分布现象的一种。在网络动态演化的过程中,成长性和优先连接性是无标度网络度分布呈现幂律的两个最根本原因。所谓成长性是指网络节点数的增加,在本文中主要指新浪微博数量的增加,新微博的增加更多的是依靠大多数没有巨大粉丝数量基础的普通用户发布的,也包括有巨大粉丝数量基础的用户所发布的那些不能引起用户兴趣和转发欲望的微博。优先连接性是指,转发数高的热门微博总是由粉丝数量基础巨大的用户发布或者转发,比如,一条新的有转发价值的微博由普通用户直接发布后,因为该用户的粉丝数量很少,也不能被大量的用户阅读和转发,往往是这条微博在自己的少量用户的粉丝圈里转发后就被新热点微博淹没掉了。如果该条微博被粉丝数量基础巨大的用户转发后,能阅读和转发该微博的用户呈现出跳跃式增加的方式增多,就会被大量粉丝用户转发,而转发次数就呈现飙升的现象。并且随着时间的演进,微博的转发数逐渐呈现出一种转发数多的会被转的更多,转发数少的微博直接被淹没掉的现象。
参考文献:
[1] 姚科.开放API:新浪微博必经之路[J].互联网天地,2010.8:73-74
[2] 胡海波,王林.幂律分布研究简史[J].物理,2005.12:889-890
[3] 黄延炜,刘嘉勇.新浪微博数据获取技术研究[J].信息安全与通信保密,2013.6:71-72
[4] 张嗣瀛.复杂系统、复杂网络自相似结构的涌现规律[J].复杂系统与复杂性科学,2006.4:41-51
转载请注明来自发表学术论文网:http://www.fbxslw.com/dzlw/3767.html