大型电商平台消费贷产品风控模型的构建

所属分类：经济论文阅读873次时间：2021-11-29 11:00

本文摘要：摘要:信用评分模型的构建及应用实施是学术界及工业界不断研究创新的重要课题。从机器学习模型的构建出发,从建模指标、模型构建、模型上线后预期表现几个角度说明了模型应用策略。在建模指标处理方面,采用原始变量woe变换作为XGBoost等模型的输入变量,并验证了模型效果

　　摘要:信用评分模型的构建及应用实施是学术界及工业界不断研究创新的重要课题。从机器学习模型的构建出发,从建模指标、模型构建、模型上线后预期表现几个角度说明了模型应用策略。在建模指标处理方面,采用原始变量woe变换作为XGBoost等模型的输入变量,并验证了模型效果提升;在模型构建上,创新采用多种算法单独建模,用XGBoost算法拟合各单模型输出结果,证明复合模型效果有明显提升;在模型上线后预期表现方面,提出了确定模型切分点的方法,即从授信额度、风险级别以及群体分布三个维度,预测即将进件群体的坏账率。本研究最后结合模型表现及业务模式给出实施建议,即对于部署难度高的复合模型可采用预授信的模式,而LR评分卡模型部署可延用申请-授信的模式。

　　关键词:信用评分;风控模型;XGBoost;机器学习;模型应用策略

电商平台

　　近6年来,随着电商平台的迅猛发展,消费金融产品层出不穷。这些产品依托电商平台的天然流量优势迅猛发展,从商城内扩展到商城外,不断拓展使用场景抢占市场。在版图的不断扩张中,信贷审批模型、模型在具体商业模式中的应用也随着用户流量的扩张、业务场景的拓展不断更新迭代[1]。

　　电商论文范例：佛山传统制造业发展跨境电商策略研究

　　目前,在信贷审批模型中,算法LogisticRegression(简称LR)依然是最为普及的,在一些特定的用户群体和场景下依然有难以替代的地位,依据该算法建立的评分模型规则简单、逻辑清晰、解释性强,便于用户理解。然而,LR模型并不能保证在各种场景、用户群体中都有良好表现。比如从模型稳定性考虑,LR模型用到的变量维度一般不超过15个,在整体自变量与因变量相关性都不高的情况下,有限的变量数量难以达到较好的模型表现。模型表现不够理想直接影响到通过率及日后坏账风险,会对商城信贷收益产生直接影响。

　　在本研究项目中,商城平台主要信贷模型算法采用的就是LR模型,当前LR模型的应用在风控能力及通过率表现方面能基本达成一个平衡,但客户仍然希望尝试新的模型算法,通过提升模型效果达到保证坏账率不增长的前提下提高模型通过率的目的;此外,客户尤其强调好的模型需要应用于生产线产生实际效益,若一个模型太过复杂导致部署周期长、出错率高而难以实施也是没有意义的。

　　根据用户的上述2个要求,项目组从模型构建出发,提出确定模型切分点预测坏账率的方法,并针对平台实际不同业务场景及业务要求确立模型应用的方法。首先,在信贷风控模型构建上,笔者参考了如下学者提出的方法并将该方法应用在商城平台上,再根据平台数据特点以及模型表现作数据特征提取及模型算法的改善。近年来,信贷风控领域较受青睐的分类算法模型包括DecisionTree(决策树)[2]、SVM(支持向量机)[3-4]、RandomForest(随机森林)、GBDT(梯度提升决策树)、XGBoost(极度梯度提升算法)、神经网络算法(NeuralNetworks)[5-7]等。2014年,萧超武等在实证分析中将随机森林组合分类算法与KNN、SVM等单分类器模型以及组合模型GBDT比较,发现前者具有更高的精确度及稳定性[8]。

　　2017年,Bequé将神经网络极限学习算法(ELM)用于消费信贷风险管理,通过实验发现该算法有计算量小、精准度高的特点[9]。2017年,LuoCuicui采用LR、SVM、深度信念网络(DBN)算法进行信贷违约预测,发现DBN具有最好的预测效果[10]。2019年,陈秋华等探讨了不同连接函数下广义线性模型的分类问题,将线性模型评价指标与RF、SVM、XGBoost等模型进行分析比对,发现广义线性模型中LR模型与SVM预测效果最佳[11]。2019年,黄志刚等人提出多源数据普适模型栈的概念,通过数据分类的自由选择采用XGBoost算法生成子评分模型,再将子评分模型转换为评分卡,通过实测证实有效[12]。

　　在参考上述学者选用的算法并结合商城平台数据特点,本文最终选用了LR算法、决策树算法、XGBoost算法建立单模型。在LR模型变量交互方面,参比陈秋华[11]提出的变量相乘的交互方式,本文提出了用相关系数法寻找交互变量的方法,并验证了该方法的有效性。受黄志刚[12]多源数据普适模型栈的想法启发,借用不同数据特点采用不同模型算法最后用XGBoost模型整合的思路,本文采取首先用多种算法建立单模型,再用各单模型的结果输出作为复合模型的输入建立复合模型的方法,经验证,复合模型效果较单模型有明显提升。

　　虽然学术界对风控模型算法的讨论十分热烈,然而对于客户提出的第二点要求,模型在生产线上的实际应用方面却略显单薄。本文花了大量篇幅讨论模型的应用问题。首先,传统LR模型、复杂机器学习模型在实际部署应用方面各有优劣:LR模型部署通常借用风控决策引擎[13]来完成,优势为部署门槛低、部署时间短、结果可靠性强,但模型效果不及复杂机器学习模型;而复杂机器学习模型虽在模型效果上更有优势,但在部署方面,由于受模型复杂程度、数据量级、部署场景、上线时间紧迫等因素制约,不是都能满足工程上的要求成功上线。

　　所以,目前工业界在风控模型部署上,LR仍是主流[14],复杂机器学习模型部署还在不断尝试发展中,不同体量的电商平台复杂机器学习模型实施的普及程度也不一样。对于本项目,商城平台刚开始尝试复杂机器学习模型的部署,文章给出了两者并举的保守方案。本文首先提出风控模型在应用实施中不同切分点对应的预测坏账率,然后比较并验证了在相同风险前提下LR模型与XGBoost复合模型实际通过率差异,并结合具体业务模式及业务需求给出模型选择的依据及部署方式。

　　一、模型效果指标评价

　　模型评价指标是用来评估模型对数据的拟合能力,二元分类的模型算法有很多,但无论是哪种模型算法都可以使用AUC[15]和KS这两个指标来衡量。AUC的取值为0.5~1,AUC值越高代表该算法对模型整体拟合能力越强,AUC等于0.5代表模型没有区辨能力,但大于0.9则模型拟合过于完美考虑异常,AUC在0.7~0.9之间的模型被视为可用。AUC在0.7与0.8之间代表模型有较好的区辨能力;AUC大于0.8代表模型有非常好的拟合能力。

　　二、建模实证分析

　　(一)建模数据构成及变量预处理

　　目前,该平台信贷产品申请用户为在平台商城近1年内有过历史交易记录的用户,该产品运营已超过1年,有充足的坏用户积累。建模用户群体,我们选择授信前1年内在平台商城内有较为活跃表现的用户,授信后6~12个月内出账次数大于等于6的用户确立建模样本。y定义方面,通过分析逾期天数与回款率关系,以及通过逾期用户M1~M4坏账滚动率分析后确定的[16]。

　　相同样本,不同y定义,最终AUC和KS模型评价指标会有较大差异。通常y定义越严格,模型指标AUC及KS表现越好,比如把进入M4的用户定义为坏用户比把进入M2的用户定义为坏用户有更好的模型表现。然而,考虑到该评分卡是建立申请用户审批模型,目的不是把最坏的用户排除,而是把有可能进入M3或M4的用户拦截在外。所以,y用户定义采用进入M2或M3的用户,但由于M3用户数量有限,所以把多次进入M2的用户列为坏用户。经过多次尝试,得到y定义为至少有2次出账且2次出账的逾期天数均大于30天(进入M2)的用户为坏用户,其余为好用户。X变量共126个,为用户申请消费贷前平台商城的历史行为数据。从分类来看,可将X变量分为用户基本信息、用户申请渠道、用户信用资质、平台活跃度、平台交易信息、收货方式、收货人(地址)信息等类别。数据样本共11180个观测值,其中坏用户为1118个,odds比9∶1。

　　采用分层抽样的方式将数据切分为7∶3两部分,前者用作模型训练及验证,后者用于模型测试。在数据预处理环节,对每个X变量作单变量分析,进行变量一致性、完整性、准确性检验,剔除变量缺失率高于20%的变量;对变量进行woe转换并计算其iv值,预测每个自变量x与因变量y的相关程度。在作变量woe转换时,对自变量排序后切分为10等分进行粗分箱,然后对变量分箱进行合并,合并时确保变量woe值为单调趋势,各分箱观测值数量不低于25个,且相邻分箱的woe值有较大差异。

　　(二)LogisticRegression单模型

　　筛选出iv值大于0.1的经过woe转换的自变量作为模型输入变量,采用stepwise逐步回归法筛选变量,模型置信度设为95%,y变量共2个取值,“0”代表好用户,“1”代表坏用户,以“0”为目标构建模型。在模型变量调整上,通过计算自变量的相关性,使相关性较大的变量组合尽可能避免同时出现在模型中。根据模型输出结果,删除变量系数为正或者系数过小的变量,以减小共线性对模型效果的影响。

　　检查进入模型的x变量分类,确保模型尽可能覆盖到每个分类。检查模型评分确保评分均匀分布。当出现超过样本量5%的观测值对应同一个评分时,找到是哪个变量造成的,用别的变量加以替换。最后确认模型,入模变量及模型参数,模型变量分别为收货人数量、近12个月的货到付款次数、近3个月的货到付款次数、近12个月拒收次数、近12个月每个月都有交易的月份数、近3个月交易金额、近3个月信用卡支付金额、近3个月借记卡支付次数、近3个月使用app登录平台次数、用户婚姻状况、用户性别以及用户进件渠道。

　　1.LR变量交互。

　　在不改变入模变量数量的前提下,将入模变量与待选变量做交互,以达到提升模型整体效果的目的。通常待选变量iv值过小难以进入模型,但待选变量与模型变量涵盖信息不同,且与之交互的模型变量相关性低。为寻找待选变量,采用对需要交互的两变量计算Pearson相关系数的办法,最后发现两组可以通过变量交互提升模型的变量。第一组,“授信渠道”、“商城卡包提取标志”进行变量交互替代原模型中“授信渠道”变量;第二组,“婚姻状况”、“客单价”进行变量交互替代原模型中“客单价”变量;交互后模型效果提升,可以看出交互前后AUC没有显著提升,但模型KS值约有6‰的提升。

　　2.决策树单模型。

　　在决策树模型构建过程中使用了两种叶节点分裂的算法,一个是熵分裂标准,另一个是Kolmogorov-Smirnov(FastCHAID)分裂标准,剪枝过程中均采用误判率、最小叶子数作为剪枝标准[17-18]。两模型输入变量前者是原始变量,后者为经过woe转换后的变量。本模型采用SASPROCHPSPLIT完成,通过对leafsize(叶节点最小观测数)、最小叶子数量、maxdepth(最大树深)、maxbranch(最大分枝数)参数调整完成决策树的构建。对每片叶子目标变量预测概率排序,通过计算每个概率分箱中累计好坏用户的占比,得到AUC及KS值。

　　三、模型选择及部署实施探索

　　(一)风险评估

　　评分模型在风控策略中有两个重要作用:一个是确立拒绝分数线,即小于某一预测概率(评分)的用户拒绝授信;另一个是根据预测概率(评分)划分风险等级、确定授信额度。评分模型设立的目的是为了让坏账率在可控范围内,那如何利用评分模型预测进件用户的坏账率便成了关键。电商平台消费贷产品通常是分期的,根据消费贷产品设计,若用户在某一期还款截止日10天内未还清账款,账户自动冻结。账款催收方面,逾期90天以内的账款由平台内部催收部门催收,逾期超过90天(进入M4)的账户因账款难以回收,故采用外包形式,催回金额与外包公司按比例分成。

　　所以这里我们把进入M4(逾期天数>90天)的用户记为坏账用户,未还清金额(包括已出账、未出账)记为坏账余额,表现时长取1年。由于使用余额、坏账余额是一个动态平衡的过程,这里选取时点数据来定义,以账户成功授信之日起1年为时间节点,坏账率定义为坏账余额与使用余额之比。在作风险评估方面,需要用到2个群体:已授信群体和即将进件群体。已授信群体定义为成功授信且表现期满1年的用户;即将进件群体定义为近一个月内申请授信的用户。

　　(二)通过率评估

　　通过率评估是将评分模型应用到当前进件用户模拟进件用户通过率的方式。通常业务部门与风控部门为通过率博弈,业务部门要求更高的通过率,风控部门则通过模型优化在保证风险的前提下提高通过率,但模型评价指标越好并不意味着使用该模型就一定有更高的通过率。

　　本文采用传统LR单模型、XGBoost复合模型进件通过率的模拟验证以上观点。设计思路为上述两模型应用于102787名即将进件用户群体,并计算其预测概率。分别对两模型预测概率进行从小到大排序,每一个预测概率对应与风控模型中累计坏用户数对应,而预测概率在该进件用户群体的分位数即为拒绝率,进而计算得到进件群体的通过率。本文通过作图的方法比较LR模型与XGBoost复合模型相同风控效果对应的通过率。以累计坏用户数作为横轴,进件用户通过率(1-拒绝率)作为纵轴,分别对两模型作散点图。

　　从中可以看出两模型头尾几乎是重合的,只在中间段看出差异。通过计算得到在“抓坏人”能力相同条件下,两模型通过率最大差异为7.9%,对应的LR模型和XGBoost复合模型通过率分别为44.8%和52.74%;若业务部门要求75%以上的通过率(假设容差为2%),且风险在可以接受范围内,两模型则在风险能力控制和通过率上几乎没有差别。

　　四、结语

　　本文通过真实数据从多个维度非常详实地分析了从模型构建到模型应用实施全过程。模型特征工程方面,相比陈秋华[11]提出的自变量交互对模型指标效果的提升,本文进一步提出用相关系数法寻找交互变量的方法;在特征变量构建上,创新采用对原变量进行woe转换的方式创建衍生变量。经验证,该方法对于模型效果指标的提升是有效的。

　　对于XGBoost模型,此方式相当于将分类变量转换为可以计算的定距变量,解决了XGBoost模型矩阵不能处理字符型变量的问题,也避免了分类变量转化为虚拟变量的麻烦。在复合模型变量构建方面,跳出通过原变量加减乘除的方式进行变量衍生的圈子,将LR单模型的woe变量连同决策树、XGBoost单模型的输出结果(概率&评分)作为输入变量,并使用XGBoost进行拟合,经验证,复合模型评价指标优于各单模型。

　　本文创新之处在于不只对模型评价指标进行比较,更从模型应用实施角度提出了模型拒绝分数线(切分点)的确定方法[21]。该方法首先采用模型各分段坏账率对模型进行风险等级划分,并通过风险等级与授信额度交叉的方法模拟各单元格内坏账率分布构成,并将模型运用于新进件的用户,预测进件用户预期坏账率,以此确定拒绝用户切分点。不仅如此,本文用模型表现与通过率之间的关系阐述了模型选用标准。以LR单模型、XGBoost复合模型为例,用数据验证了在“抓坏人”能力相同的条件下两模型通过率的大小及差异。

　　并从通过率差异、业务部门通过率最低要求、模型部署实施难度及商城现有的业务模式进行综合分析,给出模型选用建议[22]。在建议实施方面,对于选用难以部署的复合模型,建议采用预授信的模式。将模型应用在新进件用户群体上,筛选出通过用户,并用弹框或短信等方式通知,让用户选择是否开通。与现有的申请-授信模式相比,此种方式在确保风险的同时,扩大了人群覆盖面,提升了总体进件人数,绕开了模型部署实施难的障碍。

　　[参考文献]

　　[1]何飞,张兵.互联网金融的发展:大数据驱动与模式衍变[J].财经科学,2016,23(6):12-22.

　　[2]涂艳,王翔宇.基于机器学习的P2P网络借贷违约风险预警研究:来自“拍拍贷”的借贷交易证据[J].统计与信息论坛,2018,33(6):69-76.

　　[3]BaesensB,VanGestelT,ViaeneS,StepanovaM.Benchmarkingstate-of-the-artclassificationalgorithmsforcreditscoring[J].JournaloftheOperationalResearchSociety,2003,54(6):627-635.

　　[4]晏艳阳,蒋恒波.信用评分模型应用比较研究:基于个体工商户数据的检验[J].统计与信息论坛,2010,25(5):30-35.

　　[5]石庆炎,勒云汇.多种个人信用评分模型在中国度用的比较研究[J].统计研究,2004,21(6):43-47.

　　[6]陈为民,马超群,冯广波.基于KMOD核函数的SVM方法在信用评分中的应用[J].经济数学,2008(1):24-27.

　　作者：汪晓曦1,马颖2