本文摘要:摘要:研制基于图数据库与机器学习的业务安全风控平台,实现对中国移动电子渠道中的业务安全进行安全风险控制;风控平台基于图数据库和机器学习算法模型对中国移动电子渠道上的业务数据基于图数据库和机器学习进行建模分析,通过构建多模型融合的机器学习算法
摘要:研制基于图数据库与机器学习的业务安全风控平台,实现对中国移动电子渠道中的业务安全进行安全风险控制;风控平台基于图数据库和机器学习算法模型对中国移动电子渠道上的业务数据基于图数据库和机器学习进行建模分析,通过构建多模型融合的机器学习算法进行“黑产”行为进行检测以及基于图数据库识别出异常“黑产”群体,以群体的视角发现异常“黑产”,从而能够很好地对话费类和流量类两类营销活动场景进行批量操作、薅羊毛等异常行为进行有效的识别和风险控制。
关键词:用户行为分析;大数据;机器学习;图数据库
1引言
随着互联网服务的快速发展,越来越多的业务服务从传统的线下渠道迁移到在线、实时的平台上。业务方为了培育市场,在运营和推广方投入大量资金,取得巨大的经济效益和用户体验。但是,这也给互联网“黑色产业”提供了滋生的土壤,各类风险问题层出不穷。不法分子不仅批量在线申请号卡、以团伙形式进行薅羊毛行为,同时利用办理的号码进行套利、诈骗等危害社会行为。此类行为对中国移动造成营销资金的损失,也对企业形象产生不良影响。
2用户业务行为数据处理
首先将对用户的属性信息及历史行为数据,利用规则匹配、统计分析等方法进行用户业务行为特征刻画,形成高度概括的自然特征和行为特征,为异常行为识别和基于图数据库异常“黑产”群体识别分析提供基础数据支撑。其次,将用户行为数据、标签、特征等数据,输入到多模型融合的异常识别评分模型中计算用户风险评分,通过分值将用户的风险进行量化,为实时风控平台和业务系统提供风险判断依据,同时根据风险评分表中的异常用户,基于图数据库异常“黑产”群体识别分析。
3基于机器学习的异常行为识别
提取上述所有用户信息特征,采用算法模型计算各业务行为的异常分值,业务行为分值会远远高于正常页面的分值。分别使用如下算法模型进行计算:GMM(高斯混合模型)、LocalOutlierFactor(局部异常因子算法)、IsolationForest(孤立森林),生成最终异常用户业务行为分值表。通过添加阈值使每一个算法都有决策权,最终通过组合模型管用的投票机制选择异常。
3.1高斯混合模型(GaussianMixedModel,GMM)
高斯混合模型也是一种常见的聚类算法,与kmeans算法类似,同样是使用了EM算法进行迭代计算。高斯混合模型假设每个簇的数据都是符合高斯分布(通常称为正态分布)的当前数据呈现的分布就是各个簇的高斯分布叠加在一起的结果。如果只用一个高斯分布来拟合图中的数据,就会出现一个椭圆(二倍标准差的高斯分布)。但是可以直观的来看,数据明显分为两簇,因此只用一个高斯分布来拟合是不合理的,需要推广到多个高斯分布的叠加来对数据进行拟合。
3.2局部异常因子检测(LocalOutlierFactor)
局部离群因子通过计算一个数值score来反映一个样本的异常程度。一个样本点周围的样本点所处位置的平均密度比上该样本点所在位置的密度。(1)设定k值,对指定点A找到最邻近k个点;(2)计算A点到这些点的欧式距离记为𝑁𝑘(𝐴),其中最大距离为A点可探测距离;(3)求出局部可达密度;(4)同样的方法对其他点的进行计算,算出局部异常因子:𝐿𝐿𝐹𝑘(𝐴)=∑𝑙𝑙𝑙(𝐵)𝐵𝑟𝑟(𝐴)∈𝑁𝑘(𝐴)|𝑁𝑘(𝐴)|=∑𝐵∈𝑁𝑙𝑙𝑙(𝐵)𝑘(𝐴)|𝑁𝑘(𝐴)|/𝑙𝑙𝑙(𝐴)(3)(5)最终设定阈值,输出异常点。
3.3IsolationForest(孤立森林算法模型)
孤立森林属于一种无参数的非监督算法,他是一种侦测异常十分有效的组合算法,底层用的是决策树。(1)建立n个决策树模型;(2)随机抽取样本数据输入这n个模型进行训练(随机按最大最小切割),切到指定异常数据比例为止;(3)利用n个决策树进行投票,求出异常系数。
3.4多模型融合机器学习算法利用上面三个模型做组合模型处理
通过GMM、LocalOutlierFactor、IsolationForest算法构建多模型融合的一种无监督机器学习模型。这种多模型融合的机器学习算法,综合了GMM、LocalOutlierFactor、IsolationForest算法模型之间的优点,具有以下优点:首先,从统计的方面来看,由于学习任务的假设空间往往很大,可能有多个假设在训练集上达到同等性能,此时若使用单学习器可能因误选而导致泛化性能不佳,结合多个学习器则会减小这一风险。
第二,从计算的方面来看,GMM算法往往会陷入局部极小,有的局部极小点所对应的泛化性能可能很糟糕,而通过GMM、LocalOutlierFactor、IsolationForest多次运行之后进行结合,可降低陷入糟糕局部极小点的风险,特别是IsolationForest对内存要求低,且处理速度快,具有线性时间复杂度,因为是ensemble的方法,所以可以用在含有海量数据的数据集上面;第三,从表示的方面来看,某些学习任务的真实假设可能不在当前学习算法所考虑的假设空间中,此时若使用单学习器则肯定无效,而通过结合多个学习器,由于相应的假设空间有所扩大,有可能学得更好的近似。本文通过GMM、LocalOutlierFactor、IsolationForest算法构建多模型融合。
4基于图数据库的群体识别模型
基于某次注册业务推广活动的相关数据,注册推广页面,出现多个账号推广注册并获取积分成功后,向同一手机号码兑换积分的现象,疑似出现黑产薅羊毛现象。为了明确目前面临的安全风险,并在此基础上,寻求整体、可靠和完善的解决方案,基础架构组对注册页面进行了安全检测,并根据电子渠道后台的数据信息进行多维度分析,同时利用外部黑产情报库进行数据比对,发现此次活动推广,存在明显的黑产“薅羊毛”特征:攻击者利用(或者伪造)大量终端和代理IP,在活动中注册大量的账号,借此获取积分后兑换优惠券。基于此次注册业务推广活动的相关数据,我们发现本次营销活动,存在明显的黑产薅羊毛特征:攻击者利用(或者伪造)大量终端(利用IMEI标识)和代理IP,在活动注册大量的账号,然后获取积分后兑换优惠券。设计图数据库的Schema与数据导入。
5总结
本文分析了电子渠道存在的业务安全风险问题,尤其是从事“黑产”活动的用户行为,不仅损害了电子渠道本身的利益,同时也危害了正常用户的业务活动体验以及正常市场秩序。就上述问题,本文创新性地提出一种基于图数据库与机器学习的业务安全风控平台,可以很好地保障电子渠道中的业务安全,一方面通过使用GMM、LocalOutlierFactor、IsolationForest算法构建多模型融合的一种无监督机器学习模型,有效识别电子渠道中存在的异常“黑产”行为用户;另一方面,基于图数据库识别出异常“黑产”群体,以群体的视角发现异常“黑产”,可以发现更多从事异常活动的账户,做到以点带面的效果。
参考文献:
[1]周志华.机器学习[J].中国民商,2016.
[2]中国移动电子渠道运营中心发展战略研究[D].电子科技大学,2015
机器方向论文投稿刊物:《机器人技术与应用》(双月刊)1988年创刊,是公开发行的科技刊物,国际机器人联合会会员单位,在国内自动化领域享有很高的声誉,国外亦有一定的影响。本刊主要报道工业自动化和机器人领域的相关理论、技术与应用等方面的最新进展情况,涵盖面广,集知识性与趣味性于一体,具有很强的技术性和可读性。
转载请注明来自发表学术论文网:http://www.fbxslw.com/dzlw/22514.html