手把手实操|深度剖析电商贷款风控相关细节（电商贷模型）

序言：

在电商领域中，一直都有这样的场景:对于电商企业而言，资金短缺是经常出现的问题，尤其是在目前疫情状况下，经济下行，营业额逐渐降低，现金流紧张，企业这时就会考虑去借贷融资。
有需求就有供给，目前许多金融机构都有相关的电商信用贷业务。而作为其中的风控岗的童鞋，则需要基于电商相关数据，如针对电商/支付数据开发的信用资质分的场景，或是与电商渠道合作的助贷业务场景，再或是电商本身的风控场景等，部署相关的风控策略流程和模型。但这里相关的风控的工作的重点与难点，相信这也是一直是困扰各位电商从业领域同学的内容。
这里的风控内容，会遇到问题比如：如何在相关的风控场景中(包括电商信贷风控、电商支付数据等)，做风险特征衍生的思路，并且在相关的策略及模型上的应用相关的电商数据等等。
本文我们根据之前开发过的项目：电商信贷风控的实际案例，跟大家深入剖析这些问题。
本次整体的内容较多，除了公众号上的内容更会在知识星球上为大家提供本次内容所涉及的实操数据与代码，手把手实操带领大家领略整个电商信贷风控的实际案例和模型设计的内容，本次整体目录如下：
Part1.电商卖家的数据挖掘
1.店铺的经营底层数据
1.2.店铺经营特征的衍生
1）经营统计类

2）经营稳定性类3）经营增长类4）买家评价类

PART 2.经营预测模型开发：二分类模型
一.模型的要素设计：Y标签，观察点，观察期，表现期

二.建模样本选取和可用特征
三.模型的评估和应用场景

PART 3.企业经营额预测模型开发：时间序列预测模型
1.时间序列预测的场景应用
2.时间序列用的算法介绍3.时间序列的可用特征和模型训练
PART 4.python实操电商风控模型（数据集+代码内容）

对于电商企业而言，资金短缺是经常出现的问题，尤其是在目前疫情状况下，经济下行，营业额逐渐降低，现金流紧张，企业这时就会考虑去借贷融资。借贷的渠道中，电商信用贷是一个比较好的融资方式，例如国内电商平台里淘宝的电商贷，京东的京小贷，京e贷，跨境电商平台里连连的订单宝，pingpong的指日达等。
电商信贷和个人信贷一样，都是纯信用贷款，无需担保和抵押，不同之处在于电商信贷的申贷人必须是电商平台的卖家，卖家以小微企业为主，所以电商信贷也是小微贷的一个细分场景。风控的授信以平台上店铺的经营记录和客户个人信用资质为基础，在授信额度上最高可以达到300-500万，在借款期限上，电商贷的期限相对比较短，一般为30天或者3个月。

目前国内电商信贷的业务模式有以下几种：
1）电商平台自建小贷公司，用自有资金对外提供贷款，这种模式是平台做风控，资金和数据都是平台自己的。2）电商平台与银行，保理公司等资方合作，平台把自己的用户和数据推给资方，资方来对用户审核并放款，风控主要由资方来做。3）资方与第三方数据提供机构（ERP,物流,支付机构）合作，第三方机构上有电商平台用户的经营，交易等数据，第三方机构将数据和用户推给资方，资方来做放款，风控主要由资方来做，这种模式和第2种有点类似。
由于电商卖家的还款来源很大一部分是店铺的营业利润，所以在做贷款审批时，我们不仅要看店铺当前经营是否良好，也要预测其未来的经营情况。关于经营数据的主要来源：一是电商平台；二是第三方数据提供机构，比如提供ERP服务的公司，上面就有商户的交易，库存记录；三是数据供应商根据获取到的经营数据衍生出的反映经营风险的产品。下面我们将基于电商信贷这个场景，介绍经营预测模型是如何开发的。

Part1.电商卖家的数据挖掘
1.店铺的经营底层数据
反映经营情况的底层数据有这么几类：一是店铺的基本信息，包括经营时长，店铺星级/评分，店铺粉丝数等；二是订单明细数据，这块是数据挖掘的重点，包含了下单数量，金额，发货收货时间等；三是买家对于店铺产品的评价数据，产品的口碑也能侧面反映未来的经营状况；四是电商平台对于店铺的一些绩效，运营指标，例如准时发货率，缺货率，漏发率等。
在这里插入图片描述

2.店铺经营特征的衍生
上述4类底层数据，店铺基本信息和电商平台绩效指标可以直接拿来用，而订单数据和评价数据都是明细类的数据，需要做特征的开发衍生。我们先从明细数据蕴含的信息出发，思考哪些东西是跟经营情况相关的，例如下单量，销售额(GMV)，订单取消/退货/退款率，买家复购率，好评率等。然后我们根据"时间窗口+衡量主体+聚合函数"这个时间窗口特征的范式来展开需要开发的特征。我们将需要衍生的特征按业务理解分为了四类：
1）经营统计类，即根据时间窗口对订单量，金额，退货率这种做汇总统计
在这里插入图片描述

2）经营稳定性类，用户的经营情况如果很不稳定，时好时坏，那后面的还款也会不稳定。
在这里插入图片描述

3）经营增长类，我们希望用户的营业额是稳步增长的，这样店铺才能可持续发展，经营增长特征也能对后面的提额有参考作用。
在这里插入图片描述

4）买家评价类，买家对店铺产品的口碑直接影响到未来的销量，买家主要关心产品的质量，发货和收货的及时率等。
在这里插入图片描述

Part2.经营预测模型开发—二分类模型
、一.模型的要素设计：Y标签，观察点，观察期，表现期
既然是二分类，那模型目的就是预测未来的经营情况是否良好，也就是经营好(Y=0)坏(Y=1)的的标签，这样引出的问题有三个：
1）从哪个时间点观察未来的经营状态（观察点）2）评价经营好坏的表现期定多少合适3）怎么评价经营的好坏
先看第一个问题确定观察点，模型主要用在授信或支用环节，那观察点我们会想到是用户的申请时间，但这里还需要思考另外两个问题：
1）在业务初期用户很少的情况下，把申请时间当做观察点样本会很少不够建模，一般建模最好能有1万以上的样本。
2）即使在业务成熟期，由于某些平台自身体量较小，且用户走到授信的转化率低，到申请环节的用户数可能还是不够建模。
这两个问题都是样本量不够来建模，这在小微企业/个体户为主的信贷场景中很常见，那针对这个问题，我们可以换种思路来做，相关的思路与实操详情与内容我们也已经同步内容到了知识星球，参见详细内容。。
以上内容我们跟大家介绍了电商贷风控的基本情况，包括电商相关店铺的经营底层数据，电商店铺经营的特征衍生，以及电商经营预测模型开发中会面临的模型要素设计等内容。
在这一部分（part 2）的内容里，我们会讲解电商模型的开发过程中，传统的经营的二分类模型（即判断该店铺是一个好店铺或者是坏店铺）的开发的难点，比如常见的数据样本比较少的时候，怎么去开发这个电商模型。并且该电商模型开发过程中的观察点、表现期以及Y（目标标签）分布是如何定义的？
在这里插入图片描述

另外，在策略框架框架的白名单机制如何筛选客群，并在特征粗粒上如何剔除跟Y标签字段强相关的特征，来避免出现用Y来预测Y的标签穿越问题。
当然模型开发后，模型的评估与应用场景。在模型评估上，我们常用一个提升的指标来判断每个分组中的客群，好坏比是否显著且有区分度。在这个模块，我们也将重点讲解模型指标的比对问题。
另外涉及到模型的使用问题。在模型的使用上，我们也会跟大家介绍经营模型开发后的使用用途，即电商的模型如何在，如何用经营模型来做成拒绝策略与额度策略等。

以上详情细节完整版本，可以查看知识星球平台完整版本或次条纯享版的内容。
当然全部行文内容还不止以上内容，在文章中剩余部分，第三与第四部分介绍：

Part3.企业经营额预测模型开发：时间序列预测模型
Part4.实操—用LSTM预测未来销售额

第三部分（Part3部分），也是我们在电商贷场景中用得最多，落地效果最好（相比其它类型的模型）——经营额预测模型，该模型更能精准地预测销售额，但其面临的挑战也较多：
一是因为历史数据存在的大量脏数据，导致会预测有影响；

二是因为某些商品是收到季节性影响的，比如服装水果等，都会收到季节等因素影响，导致预测有偏差；
三是因为活动和节假日的关系；
最后一个则是因为商品迭代个外部环境，均会造成预测不稳定。
而基于以上种种对模型的影响因素，我们也提出了相关的可行性的减少干预与影响因素的方法，在该落地实操过程中尽量将以上所提到的种种影响因素降到最低。另外我们还提到了一个贷中环节做风险监控的方法，对一个大客户这种经营预测有比较好的推广效果，有了这个方法可以进一步降低资金到期后逾期的风险。
在第三部分，因为是讲解经营额度预测模型的开发的，所以我们也将目前常见的各种经营额度，会将目前用到的各种时间序列用的算法跟大家做了相关介绍。
并且在模型上，上述所讲到的因为促销活动的影响以及季节性和节假日的影响，如何开发有效的特征来规避以上两个因素的影响，在这个部分也会跟大家讲解思路，另外还有更细颗粒度的特征的开发逻辑也会在这里碰撞。
最后在模型开发完毕后，对于模型效果中时间序列模型的评估，也在这个部分做了比较系统的汇总跟整理。

第四部分（Part4部分），在这个部分我们在行文实操中，带来电商模型的实操开发过程，与之相关的是一份电商商铺的销售额数据。通过这个实操，弄懂企业营业额的预测与开发。
实操数据是以一份销售额数据，数据集包括：
①需要预测的销售额(sale_amt)，②时间字段(date,时间跨度从2001/1/25到2021/9/25)③以及4个建模特征：day_amt_max_30d（近30天单日最大销售额）；day_amt_min_30d（近30天单日最小销售额）；day_amt_avg_30d（近30天日均销售额）；day_amt_std_30d（近30天每日销售额的标准差）；
在这里插入图片描述