慎点,大佬问答系列|面霸如何养成

信贷是金融领域的一个典型业务范围,在金融圈子从事的小伙伴们是相当熟悉的,而作为信贷核心的“风控”更是体现了业务内容的丰富程度,同时在实际工作属性上围绕信贷风控也大体区分了风控策略、风控模型、数据分析、数据挖掘等岗位。因此,熟悉理解信贷风控的体系架构与业务流程,并掌握数据、策略、模型等风控元素的原理思路与应用方法,是我们身在信贷数据分析圈子里必须要学会的思维与能力。
信贷风控是围绕产品形态进行构建的,不同的业务需求与运营特点决定了风控体系的整体布局与细节内容。但是,无论信贷产品的业务模式如何变化,或者是面向客户目标是C端个人或B端中小微企业,其风控的核心理念与目标是一致的,那就是控制风险从而创造收益。在风控的“目标变量”相同的情况下,数据、策略、模型、引擎等关键角色,在业务流程的不同环节发挥着重要价值与作用,里边涉及的知识要点与解决方法也是非常众多。在这样的业务背景下,我们需要有针对性的抓好重点内容,并将其应用到实际工作中。
本文根据以上实际情况,围绕信贷风控数据分析这个业务圈子,为大家准备了一份“100个为什么”经典知识点问答,供各位小伙伴学习储备或巩固复习自己的信贷风控知识库。本内容为系列文章,包括上中下三个部分,分别为风控体系篇、策略分析篇、模型算法篇。本文为风控体系篇,选取实际工作中较为常见的业务问题,给出对应的解决思路与应用方法,便于大家在相关工作场景或面试场景择之采用。
本次内容,我们一共列出了26个风控数据中的数据分析内容,这些内容也是在日常的工作与面试中,大家经常高频会遇到的问题。其中还有10个隐藏问题,会在星球社区中发布。详细内容,如下:

01:为什么在信贷风控流程中一般都是策略在前模型在后?
答:从业务流程考虑,策略一般会包括黑名单、反欺诈、多头等准入规则,部署在风控前置环节可以简单直接的进行审批决策,不需要过多的量化分析,而后采用信用标签、评分模型等规则来进一步对策略通过的群体进行筛选。从数据成本考虑,模型是由多个特征字段训练拟合而成的,而策略规则大多情况下是单一或二维组合规则,针对拒绝同一个坏用户,通过模型决策所调用的字段要比策略规则要多,从而数据成本也会增加。

02:为什么采用策略与模型的决策矩阵进行决策风控准确率更高?
答:决策矩阵分析可以将两个维度的评估结果进行交叉分析,即根据策略与模型的风险等级组合来决策,假设策略与模型的评级均设为ABCD等级(风险从低到高),采用决策矩阵可以有效拒绝策略&模型组合为DD、DC、CD、CC等风险较高的群体,比单向策略或模型拒绝等级C、D情况的风控准确率要高,比如策略为D但模型为A的用户本身风险可能并不高,但由于单向的决策会误拒较多的好用户,而决策矩阵会有效解决这个问题。此外,感兴趣的小伙伴可以参看番茄星球课堂的第54次课《策略与模型之决策矩阵分析》,课程结合实际案例有详细介绍。

03:为什么三方数据接入之前除了区分度测试还要进行稳定度评估?
答:三方数据引入是为支撑风控策略或模型的开发,以提高风控体系的准确度,当特征数据的区分度例如IV、KS等指标满足业务需求后,务必要对特征分布的稳定性指标PSI进行测试。如果特征只是在当前测试时窗的区分度较好,而在将来线上应用时的区分度变差或者变得更好,都会直接影响特征对应策略规则的通过率和准确率,显然这是业务中不可接受的。因此,三方数据的测试过程中,特征的稳定度评估是一个必要环节,在一定程度上来讲,稳定度评估也是对特征区分度在时间维度上的测试。此外,感兴趣的小伙伴可以参看番茄星球课堂的第53次课《三方风控数据产品的测试评估》,课程结合实际案例有详细介绍。

04:接下来的目标?
答:贷前申请模型是有监督模型,根据存量样本有贷后表现的数据进行建模,也就是说建模是根据风控审批通过的样本来建立的,但模型最终的应用场景是面向未来可能通过或拒绝的所有用户群体,这在模型开发和模型应用的特征数据上已经形成了差异。如果适当将部分拒绝样本加入到建模样本数据中,会有效减小这种特征数据分布上的差异,从而满足实际业务情况。对于建模数据中引入的拒绝样本,最关键的问题是如何来定义目标变量,这里可以采用模型打分赋值、随机比例划分等方法来设置。感兴趣的小伙伴可以参看番茄星球课堂的第68、69次课《拒绝演绎方法介绍与场景应用》,课程结合实际案例有详细介绍。

05:为什么逻辑回归模型相比机器学习树模型更具有解释性?
答:逻辑回归模型是一种广义线性模型,模型拟合训练的函数结果会直观体现各入模变量的权重关系,通过各变量X系数大小可以判断对目标变量Y的影响程度。同时,在模型训练前的特征筛选环节,我们对特征变量的数据分布较为关注,无论特征是否经过WOE编码处理,变量离散后的单调性趋势往往是入模选择的标准之一,而这种单调性正是需要结合实际业务理解与数据分布形态来分析,可以合理描述出特征取值的变化对风控坏账率和通过率的影响,从而保证模型在最终应用层面有很好的解释性。对于银行等金融机构来讲,模型的解释性是非常必要的,因此逻辑回归算法在银行风控模型的开发上一直得到广泛应用。

06:为什么在风控建模的目标定义中除了“好、坏样本”有时还存在“灰样本”?
答:灰样本的定义是源于在选取的建模样本数据中,不满足好坏定义条件的剩余样本,例如表现期不足、好坏程度不够等。灰样本的设置可以有效扩大好、坏样本之间的特征差异,不参与模型拟合的训练环节,这样可以促进模型得到较好的区分度效果。在模型测试环节,灰样本则需要加入样本群体分析中,以测试模型的泛化能力。具体灰样本的定义逻辑与应用场景,需要结合实际样本情况和业务需求而定,但目的与思路是一致的。

07:为什么在建立客户画像聚类模型时需要对样本数据进行标准化处理?
答:聚类模型的拟合训练是根据样本数据的距离、密度等空间关系进行类别划分的,例如Kmeans是根据样本点的距离,DBSCAN是根据样本点的密度,而在计算样本之间的距离和密度时,如果某些变量之间的量纲差异太大,会对模型训练的效果影响很大。例如Kmeans算法经常采用欧式距离原理来判断类别,假设通过特征“年龄”与“收入”来进行聚类,“年龄”取值范围为2060,“收入”取值范围为300010000,那么得到的距离d中,明显是特征“收入”占的权重更大,使得距离结果主要由特征“收入”决定,这显然是不符合常理的。但是,经过数据标准化后,每个特征的量纲保持一致,这样算出来的样本点之间距离才是更为合理的,从而保证聚类模型结果的有效性。

08:为什么同样是boosting决策树算法,LightGBM比XGBoost的算法效率更快?
答:XGBoost是使用基于特征预排序(pre-sorted)方法的决策树算法预排序算法,每次根据单个特征算分裂增益时,需要遍历所有样本的特征取值,时间效率复杂度为datafeatures;而LightGBM是使用基于特征直方图(histogram)方法的决策树算法,只需要遍历特征直方图分桶数n次,时间效率复杂度为nfeatures。从内存消耗与时间效率上对比,LightGBM明显优于XGBoost。

09:为什么LightGBM相比XGBoost算法来讲,可以有效降低模型过拟合程度?
答:XGBoost采用的是level-wise的分裂策略,对树的每一层所有节点无论增益大小都会进行无差别分裂,这样使得某些增益非常小的节点,虽然对结果影响不大,但还是强制分裂给算法效率带来了不必要的开销;而LightGBM是采用了leaf-wise的分裂策略,即在当前树的所有叶子节点中,通过选择分裂收益最大的节点进行分裂。在这种情况下,当树节点的分裂次数相同时,leaf-wise方法相比level-wise方法可以降低更多误差,得到较高的精度。但是,leaf-wise方法很容易促使树的深度过大,导致模型出现过拟合现象。一般情况下,采用LightGBM构建模型时,需要重点对参数树的深度进行限制,以避免模型过拟合。

10:为什么分析连续变量之间相关性时,往往采用pearson而不用spearman系数?
答:pearson相关系数定义特征变量协方差除以标准差的乘积,评估的是两个连续变量之间的线性关系,而spearman相关性系数评估的是变量之间的单调关系,但数据分布的单调趋势并不一定是线性关系。因此,针对特征为连续数据、正态分布、线性关系等情况时,采用pearson相关系数最为合适,而针对有序类型特征数据时则需要使用spearman系数。

11:为什么针对评分卡模型变量的稳定性评估,采用PSI比CSI更便于从业务上量化?
答:对于评分卡模型的变量稳定性,PSI与CSI指标都可以用来评估,但二者除了原理逻辑差别外,在业务理解分析上也有很大不同。PSI可以衡量模型分数或变量取值在不同样本分布的稳定性程度,其公式为PSI=(pct_cur-pct_dev)*ln(pct_cur/pct_dev),其中pct_cur、pct_dev分别代表测试样本占比、开发样本占比。PSI值越小,说明字段分布的稳定性越好,在业务中一般以0.01作为评估标准。CSI表示两个样本不同区间占比差值与评分的乘积,其公式为CSI=(pct_cur-pct_dev)*score,其中pct_cur、pct_dev分别代表测试样本占比、开发样本占比,CSI值结果有正负值的可能,反映的是各变量评分向高分数或低分数段波动的趋势(数值正负)和程度(数值大小),但是这种波动程度只能在当前模型各变量之间来衡量评估,不能与其他模型的变量来进行对比,并没有绝对业务值的参考。因此,同样是评估模型的稳定性,PSI更便于结合实际业务来进行量化理解数据的稳定程度,而CSI更侧重体现变量评分的波动趋势。

12:为什么当建模样本特征的区分度普遍较低时,采用分类子模型思路可以优化性能?
答:当建模样本的特征IV普遍表现较低时,比如各字段的IV值集中在0.02附近,这样构建出的模型也会符合预期,模型相关指标例如KS、AUC等都表现较低。在这种情况下,可以考虑将特征变量池结合业务理解将字段进行分类,比如消费类、出行类、征信类、设备类等,然后根据每个类别的变量池分别建立子模型,将这些子模型作为新的特征字段,对比可知其IV值会明显优于各个原始特征字段,接着采用各子模型字段进行模型训练,这样最终得到的总模型效果会有明显提升,其主要原因是通过分类子模型的构建,可以较大程度聚合各变量的信息生成新的且区分度较好的字段,从而使得最终模型的效果有较好的提升。

13:为什么在字符类别变量转换上,特征one-hot编码相比label编码更为合理?
答:特征one-hot编码是根据原始变量的取值分布,生成n个二分类新特征变量,针对原始数据的分布信息并没有发生变化,只是数据展现方式进行了转换,例如特征变量“学历”(研究生及以上、本科、专科、高中、初中、小学),经one-hot编码后转换为“是否研究生及以上、是否本科、是否专科、是否高中、是否初中、是否小学”共6个新的字段。但是,对于特征label编码转换,结合业务理解,学历是有序变量,从研究生到小学是比较含义的,一般采用合适的数值进行替换,依次对原始值“研究生”到“小学”分别赋值6/5/4/3/2/1,虽然这样的转换也是符合实际业务理解的,对于模型训练与评估都是有效的,但是这里需要注意的是,相邻学历之间的差异不可能完全对等,例如本科与专科之间的差距为1,那本科与专科的差距也为1,这样的绝对值是无法对比量化的,因此必然会对原始数据信息有一定影响,当然在风控建模体系中,误差是无法避免的,但这里需要理解one-hot编码相比label编码在保持数据真实信息的优势。

14:为什么z-score标准化相比min-max标准化在数据处理方面应用更为广泛?
答:对于z-score标准化,与min-max标准化类似,都是对原始样本的特征数据进行了线性转换,也就是将特征样本点平移且缩短距离,使不同维度特征的原始数据具有可比性,从而保证特征在模型训练时权重得到统一。但是,z-score标准化与min-max标准化最大的区别,是z-score仅将原始数据的量级发生了变化,但数据的分布类型是不变的,而min-max后的结果在数据量级与数据分布上都与原始数据不同。因此,对于最常采用的min-max和z-score标准化,在建模时当不确定使用哪种方式时,优先选择z-score标准化进行处理,其优势是z-score处理方式不会影响特征原始数据的分布类型。

15:为什么二分类模型算法也可以解决业务上的多分类问题?
答:二分类模型问题在信贷风控中最为常见,例如违约预测、流失预测、营销预测等场景,根据建模样本中二分类目标进行训练,虽然从决策结果仍然是二分类标签,但本质是预测概率通过阈值划分进行分类的。如果实际果业务需求是将样本群体划分为多个等级ABCD,比如信用风险、营销价值等,可以通过二分类模型最终预测概率排序后的结果进行区间划分,从而得到不同资质的样本客群,这样便可以实现实际业务上的多分类场景。

16:为什么采用K折交叉验证与网格搜索得到的模型指标有时比默认参数效果差些?
答:K折交叉验证是指将建模数据集随机等分为K份,每次选取其中K-1份作为训练集,剩余1份作为测试集,经过训练后可以得到K个模型,然后将K个模型的平均测试效果作为最终的模型效果。但是模型算法在初始默认参数值情况下,是根据较大数据量(例如随机拆分的训练集)的样本进行训练的,最终模型表现除了参数影响,样本量大小也有较大区别,会出现比对自动组合调参的结果要好,但这并不能说明K折交叉验证与网格搜索的调参思路无效,而是需要将调参后的最优参数组合,作为模型输入在原训练样本和测试样本上重新运行即可,输出的评价指标也是参数调优后的模型性能表现。

17:为什么黑名单核验类特征不便于作为模型训练变量来使用?
答:黑名单字段属于信息核验类特征,在区分样本好坏方面是非常高的…

18:为什么在建模过程的特征分箱过程中,离散后区间样本占比最好是5%以上?

19:为什么采用孤立森林算法来识别样本异常值比DBSCAN等算法更为高效?

20:为什么在建立逻辑回归模型时,特征离散后数据常以woe替换而不用badrate?

21:为什么风控流程中的策略规则、评分模型等,一般不会选用相同的特征变量?

22:为什么中小微企业的风控模型往往是专家经验评分卡模型?

23:为什么AUC值结果相同的两个模型,并不能说明二者的区分度一致?

24:为什么银行信用卡中心建立ABC模型时,都是根据不同信用卡类型进行开发的?

25:为什么建立好的机器学习模型往往需要通过生成pmml文件进行部署?

26:为什么采用孤立森林模型来检测异常值时,不需要对样本数据进行标准化处理?

以上剩余的10个问题(问题17~26),也是经常出现在风控工作与面试中的高频问题,本次我们在知识星球中为各位会员同学准备了此份内容,可移步至知识星球平台查看:
在这里插入图片描述

~原创文章

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值