赋能金融风控加分项的这30个问题,您都搞懂了吗

前言:
在番茄知识星球的前边文章里,我们发布过一篇“信贷风控数据分析圈100个为什么(上篇-风控体系)”的内容,主要描述了信贷风控体系中常见的26个业务问题及其解决方法。作为系列文章“100个为什么”经典知识点的第二部分,本篇内容将从数据建模的维度,来介绍下信贷业务常见问题与处理思路,便于大家在相关工作场景中拓宽模型算法的知识领域。
本次内容,我们一共列出了30个风控数据中的‍模型算法的内容,这些内容也是在日常的工作与面试中,大家经常高频会遇到的问题。
其中还有10个隐藏问题,会在星球社区中发布。详细内容,如下:
01:为什么逻辑回归模型在金融领域中始终应用范围很广?
答:在金融领域中,实际业务的分类场景较多,例如风控场景的是否违约、是否流失等,营销场景的是否价值客户、是否使用优惠等,而对于解决分类问题的逻辑回归模型,相比决策树、贝叶斯、K近邻、神经网络等模型,最突出的一个优点是模型的可解释性非常好,可以很直观的了解到各个入模特征对模型结果的影响趋势与变化程度,而对于模型的可解释性,在金融业务领域是非常重要的,尤其是银行机构,对模型应用的业务解释能力要求较高,促使逻辑回归模型在银行等金融机构的信贷等业务中应用非常广泛。此外,逻辑回归模型还有其他较明显的优点,例如模型训练速度较快,有利于模型的快速迭代更新;模型部署较为方便,可以直接在风控决策引擎上部署模型参数;模型结果易于理解,可以很方便的转化为线上策略规则来应用。
02:为什么建立逻辑回归模型时,经常对特征变量进行woe编码处理?
答:逻辑回归模型在实际业务中是具有较好解释性的,在建模时通过woe编码方式对特征变量进行处理,主要有以下优点:
(1)对连续型与离散型变量均可woe编码;
(2)可以将特征离散后的区间映射到woe值,有较好的解释意义;
(3)woe编码可以直接处理特征缺失值情况;
(4)特征woe值分布可以体现出数据分布的单调性趋势,便于特征变量的筛选;
(5)woe值的正负关系可以代表离散区间样本的好坏程度;
(6)woe值转换后更便于IV值的推导与分析;
(7)woe编码对原数据有标准化的意义,有利于模型变量的拟合。
03:为什么采用交叉验证的方法可以获取更为精准稳定的模型?
答:交叉验证的核心思想是重复使用数据,将建模样本数据集进行拆分,然后组合成不同的训练集和测试集,在训练集中训练模型,在测试集中评价模型。在这样数据拆分的原理逻辑应用下,可以得到多个不同的训练集和测试集,其中某一个训练集的样本可能是下一个测试集的样本。交叉验证的目的是有效估计模型的测试误差,或称为泛化能力,然后根据模型验证的性能结果对比,选择精度较高的合适模型。在实际工作场景中最常用的几种交叉验证方法,包括HoldOut交叉验证、K-Fold交叉验证、分层K-Fold交叉验证、Shuffle-Split交叉验证、Leave-P-Out交叉验证等。
04:为什么决策树模型在数据预处理阶段不需要特征归一化处理?
答:决策树是一种概率模型,在模型训练过程中,不会关注特征变量的具体取值大小,而是关注特征变量之间取值分布的条件概率,从而决定树分裂的节点位置,即使对特征变量进行归一化(min-max)的数据缩放处理,特征数据分布没有发生变化,也不会影响决策树分裂的规则。这里需要注意的是,对于特征标准化(z-score)处理方式,会变换特征的数据分布形态,也就会影响决策树模型的效果。但是,在建立决策树模型时,不需要对特征进行标准化处理。
05:为什么随机森林模型可以有效提高模型的泛化能力?
答:随机森林的主要优点体现在随机性,包括随机选取样本和随机选取特征,这样可以有效保证模型的泛化能力。随机森林在模型训练过程中,首先通过自由采样的方法随机获取n个训练样本,然后在单个训练样本上随机选取部分特征,并从中选择最优特征来划分决策节点,最后得到n棵决策树学习器。对于分类场景问题,随机森林采用多数投票的规则确定最终模型结果,而对于回归场景问题,随机森林是取多棵决策树预测值的平均数作为最终模型结果。
06:为什么建模过程中特征相关性分析显得非常有必要?
答:通过特征相关性分析,可以量化分析特征变量之间的相关程度,对于相关性较强的变量进行筛选,不仅可以有效避免模型的共线性问题,保证模型应用的稳定性与适用性,而且还可以较大程度有效缩小模型训练的变量池范围,从而提高模型学习过程的效率。此外,根据特征变量X与目标变量Y的相关性分析结果,可以提前了解自变量与因变量的关系程度,这在判断特征变量在模型的贡献性方面有一定的参考价值。
07:为什么在线性回归模型评估中,采用指标调整后R2比R2更为合理?

答:对于多元线性模型,通过指标R2来评估模型效果会存在一个缺点:当模型特征变量的数量增加时,R2取值会相应增大,反映出模型的精度很高,但如果增加的特征变量与目标变量相关性不大时,此时模型的性能本质上并没有得到提升,而R2取值增大是无意义的。为了避免这种情况,调整后R2指标同时考虑了样本量与特征数的影响来优化R2,使得调整后R2的取值不会随着特征自变量数量的增加而趋近于1,这样使得模型效果评估更为准确。
08:为什么对于模型参数树的深度,随机森林可以比GBDT设置稍大一点?
答:随机森林模型在训练过程中,需要每棵随机决策树具有较强的表达能力,最终通过投票的方式决定模型的性能表现,从而可以降低过拟合现象,因此单颗树的学习深度较大,对模型是最终拟合偏差影响不大。但是,GBDT模型的学习机制是依次加强前一棵树的表达能力,使得每颗树不需要有太强的表达能力,否则很容易导致模型出现过拟合现象。
09:为什么逻辑回归模型在拟合训练之前经常对特征进行离散处理?
答:特征离散是建立逻辑回归模型一种重要的数据处理方式,但并不是必须采取的步骤,而特征离散处理的最终实现目的是可以较好保证模型的性能,具体表现在以下几个方面:
(1)特征离散可以有效处理异常值数据,从而避免噪音数据对模型训练的影响;
(2)特征离散后可以降低模型的复杂度,使模型表现更为稳定;
(3)特征离散后的区间分布具有独立的权重,可以提升的模型的训练效果;
(4)特征离散后数据稀疏向量之间的内积乘法运算速度增加,有利于模型的快速训练与迭代更新;
(5)特征数据分布得到简化,可以降低模型出现过拟合的现象;
(6)特征离散后便于特征交叉,从而引入非线性分布,有效提高模型的表达能力。
10:为什么KNN模型在训练之前需要对特征进行标准化处理?
答:KNN(K近邻算法)模型对类别标签划分的算法原理,是依赖于特征距离的计算,而在实际业务场景中,样本数据各个特征变量的量纲往往是不同的,如果对相关字段不采取特征标准化处理,那么在获取样本之间的距离时,很可能由数值分布较大的特征主要决定了最终距离的大小,而对于其他取值较小的特征,其距离权重会表现很低,这在场景中显然是不合理的。因此,通过特征标准化处理,对参与模型训练的特征取值分布进行缩放,这样有效保证了各特征变量的权重相当,最终得到的样本距离更为合理有效。
11:为什么评价分类模型效果时采用F1-score相比precision和recall更为合理?
答:对于分类模型评估指标,precision(精确率)表示预测为正例的样本中预测正确的占比,recall(召回率)表示真实为正例的样本中预测正确的占比,二者分别代表“查的准”和“查的全”,理想情况下是希望这两个指标取值越大越好,但实际情况是二者有相互制约关系,也就是说追求precision越高则recall越低,而追求recall越高则precision越低。为了兼顾这种关系,调和均值F1-score可以综合评估precision和recall的数值表现,当precision和recall都较高时,F1-score也会较高,这对于评估分类模型的综合性能时是非常方便且有效的。
12:为什么建模过程中针对离散型变量经常采用onehot编码而不是label编码?
答:虽然onehot编码与label编码方式都有效解决了分类变量的处理问题,但是onehot编码后生成的子维度变量是具有意义的,而label编码后的特征取值没有很好的解释性,例如特征“水果”的取值为“苹果、香蕉、西瓜”,label编码后得到的是“1、2、3”,转换后的数值虽然可以参与计算,但并没有实际的解释意义;再例如特征“学历”的取值为“研究生、本科、专科”,label编码后得到的是“3、2、1”,转换后的数值虽然具有一定等级排序解释意义,但数值之间的权重差异并不能量化说明实际学历的属性。
13:为什么L1和L2正则化可以降低模型的过拟合程度?
答:L1正则化是所有权重绝对值之和,可以产生稀疏模型,用于特征选择;L2正则化是所有权重的平方和再开平方根,可以获得值很小的参数。在模型拟合过程中,L1与L2都会倾向于让变量权值尽可能小,从而获取一个所有参数都表现较小的模型。由于参数值小的模型比较简单,可以适应不同的样本数据集,在一定程度上降低了模型过拟合程度。
14:为什么逻辑回归本质上可以理解为线性回归模型?
答:逻辑回归与线性回归都属于广义线性回归模型,但逻辑回归模型引入了Sigmod函数,是一种非线性分类模型,除了Sigmod函数的映射关系,算法原理与拟合思想与线性回归是非常类似的。此外,逻辑回归是假设变量服从伯努利分布,采用最大似然法去计算预测函数中的最优参数值,而线性回归是假设变量服从高斯分布,采用最小二乘法去拟合自变量与因变量的关系。
15:为什么逻辑回归模型特征系数的绝对值越大并不代表特征的重要性越强?
答:逻辑回归模型的特征系数值在很大程度上是可以反映变量的重要性,例如特征系数的绝对值越大,对模型分类效果的影响越明显,但是不能直接认为变量系数值越大重要性越强。如果将模型特征的量纲进行缩放调整,回归方程变量系数的绝对值也会发生变化,这并不是特征重要性的体现。另外,模型变量中如果有部分特征的相关性较强,其中一个特征的系数值变化也会直接影响相关特征系数出现较大波动,这显然不是特征重要性的本质属性。
16:为什么模型训练中随着迭代次数的增加,训练集的误差降低而测试集的误差增大?
答:迭代次数过多导致模型出现过拟合现象,模型在训练样本上的学习能力过高,模型性能表现较好,模型拟合曲线与训练数据分布的契合度很高,但是对于测试新增数据的容错率降低,模型的泛化能力很弱,从而使模型误差较大。这种情况下,可以适当减少模型迭代次数、增加训练样本数据量、添加正则化项约束等方法来降低模型过拟合情况。
17:为什么样本不平衡对模型训练与应用效果有较大影响?
答:当建模样本数据不平衡时,模型在训练拟合过程中更容易偏向样本量多的类别,而很少在意样本量较少的类别,这样得到的模型在预测样本量较大的类别时,模型的整体准确度虽然表现很高,但在业务场景应用中是不合理的,即模型并没有按照实际需求合理学习与应用。
18:为什么认为LightGBM模型比XGBoost模型的综合性能表现较好?
答:LightGBM与XGBoost相比,主要优点体现在针对大规模数据处理的高效性能上,在模型训练精度方面无明显差别,而在训练速度上LightGBM远快于XGBoost,在内存消耗上LightGBM远小于XGBoost,这也是LightGBM算法“Light”的本质体现。此外,针对建模数据的类别型特征,XGBoost需要经过OneHot编码处理才能使用,而LightGBM可以直接支持类别型特征作为模型输入变量,这一点在实际建模过程中也是非常方便实用的。
19:为什么针对评分卡模型上线后的稳定性监测维度,除了模型分数还有变量分布?
答:模型上线后的稳定性监测是一项重要内容,模型评分的PSI稳定性分析只是从整体上量化评估了模型的波动程度,但是分数的PSI结果无论表现好坏,是无法判断具体的原因,也就是由于哪些变量分布导致整体分数的波动,尤其是针对分数PSI值较大时(0.1以上),一定需要对模型各个变量的取值分布进行PSI分析,这样才能明确模型波动的具体原因。假设模型分数PSI明显小于0.1而说明稳定时,最好同时将各变量的PSI输出,个别情况是模型稳定并不代表各个变量的分布都稳定,可能部分变量的波动恰好相互抵消才保证了模型整体的稳定。因此,在模型稳定性监测方面,模型分数与变量分布的波动程度指标都要同步分析才是最合理的。
20:为什么GBDT模型不适合针对高维稀疏特征的样本数据?
答:GBDT在模型训练过程中,每次树节点的分裂需要分析比较大量的特征,而针对建模样本的高维特征情况,会直接导致模型训练耗时较长。同时,从高维稀疏特征中对特征空间分布难以进行有效的划分,此外还对异常数据表现很敏感。
21:为什么二分类模型预测结果也可以实现多分类模型的应用场景?
答:二分类模型的结果表现为针对目标正例的预测概率,而根据预测概率大小排序后的分布进行区间划分,便可以得到不同程度的群体表现类型。例如……
22:为什么建模样本的噪音数据会导致模型出现过拟合现象?
23:为什么对于Kmeans聚类模型,通常采用“肘部法”来确定合适的聚类数量?
24:为什么针对样本不均衡的建模场景,最好是采用过采样而不用欠采样方式?
25:为什么XGBoost模型相比GBDT模型优势明显且应用较广?
26:为什么Adaboost模型算法的分类精度较高且不易出现过拟合?
27:为什么 LightGBM模型相比XGBoost模型在准度性能上有较大优化?
28:为什么不同场景下模型指标精确率(precision)与召回率(recall)侧重点不同?
29:为什么Kmeans或KNN在算样本间距离时,常采用欧氏距离而非曼哈顿距离?
30:为什么机器学习模型在训练过程中很容易出现过拟合现象?
以上剩余的10个问题(问题21~30),也是经常出现在风控工作与面试中的高频问题,本次我们在知识星球中为各位会员同学准备了此份内容,可移步至知识星球平台查看:
在这里插入图片描述

~原创文章

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值