助力篇|常见金融风控数据分析内容汇总,助你面试道路畅通无阻

前言
在番茄知识星球的往期文章,关于“信贷风控数据分析圈100个为什么”的话题,曾发布过两篇经验文章,分别是“上篇-风控体系(26个问答)”、“中篇-数据建模(30个问答)”,作为一类包含三篇文稿的系列文章,“下篇-数据分析”终于和大家见面了,我们迟迟未发也是希望能够攒足更有实际场景意义的问答,给各位小伙伴再分享一次知识经验小餐。

具体链接如下:
上篇:风控体系问答
中篇:中篇-数据建模问答
本篇是会有20个与风控数据分析密切联系的经典问答,希望可以帮助大家巩固常见的知识要点,同时在工作任务中学以致用,从而拓宽数据分析的理解思路,并提高数据分析的处理能力。
详细内容,如下:
01 为什么针对分类变量进行编码经常采用one-hot而不用dummy?
答:虽然独热编码(one-hot)比虚拟变量(dummy)多生成了1个变量,看似有特征冗余的缺点,但对数据处理任务的效率影响并不大;one-hot编码很明显的一个优点是可以很直观的了解到所有的类别情况,而dummy编码针对未出现的类别需要推论判断。此外,在模型训练过程中,我们往往采用正则化来约束参数,从而防止模型的过拟合,regularization能够处理多余的自由度,这样有效解决了one-hot编码后多类别情况带来的影响。

02 为什么通过统计指标处理特征缺失值时,针对连续型字段经常采用平均值、中位数来填充,而不采用最大值、最小值、众数?
答:采用平均值、中位数可以在一定程度上保证数据的平衡,很多情形下可以维持原有数据的分布形态,若采用最大值、最小值等方式填充,很可能导致处理后的数据分布趋势发生变化,尤其是在缺失值数量较多的情况下,直接导致出现偏峰分布的现象,同时填充后的数据也不符合实际业务的客观理解。当然,在某些特定场景下采用最大值、最小值等填充也是完全合理的,但一般情况下针对连续型特征,采用平均值、中位数相对更合适些。

03 为什么在特征缺失值与异常值处理过程,往往异常值处理在前?
答:如果缺失值处理在前,若通过常用的统计指标(最大值、最小值、平均值等)来填充,会将异常值数据考虑在内,这相当于将噪音数据成分植入到缺失单元,在一定程度上将异常值成分扩散,直接影响数据的合理分布。如果异常值处理在前,可以先将噪音数据影响的排除,然后采用合适的缺失值填充方法处理,可以较好保证特征数据分布的原有形态,对后续模型训练的影响也明显更小。

04 为什么离散型数值特征在异常值处理不采用箱线图方法来实现?
答:从箱线图的原理逻辑来讲,离散数值型特征是完全支持通过箱线图来识别异常值的,而且也具有一定的解释意义,但相对连续型特征的箱线图处理,离散数值型特征处理过程的合理性有明显欠缺。例如,某离散型特征的取值分布为1,2,3,4,10,若采用箱线图来判断,则10会认为异常值,若此特征的标签含义是电商会员卡等级,10是很有意义的,作为异常值处理是不合理的。因此,离散数值型特征往往通过取值占比或人为经验来判断异常值。

05 为什么在数据建模前的特征探索分析很有必要?
答:样本数据探索的主要目的,是为了给后续的数据清洗与特征工程等环节提供信息参考。其中,针对数据清洗方面,我们可以根据数据的统计分析,了解到样本特征的分布类型(连续型、离散型)、取值类型(varchar、int、float、date)、缺失值情况、异常值情况等,可以进一步决定数据清洗的具体方法,例如对于连续型与离散型特征的缺失值处理,选取的处理逻辑是有很大区别的,连续型采用平均值,而离散型采用众数等。针对特征工程方面,由于已知特征字段的不同取值类型,在特征编码、特征标准化、特征相关性等处理方法的选择上也有很大差异。因此,在数据分析任务中,导入数据后的样本探索分析,对于我们熟悉样本特征情况与把握后续处理环节是很有帮助的。

06 为什么特征衍生时字段维度不要太多?
答:特征衍生是数据建模过程中经常采用的一项特征工程,尤其是针对特征变量池较小的情况,但是对原始特征进行衍生的过程中,不能一味追寻加工特征的数量,务必要考虑特征的业务含义与应用价值,在银行等传统金融机构更需要注意这个要点。同时,根据原始特征的不断衍生,例如通过统计学的差分、占比等维度,理论上可以加工出无穷的字段,但新字段之间的相关性是很强的,在后续特征筛选的环节会很大概率的删除,这对工作效率来讲显然是没有必要的,即使不进行特征相关性筛选,在模型拟合过程中会直接导致模型的共线性,而这也并不是我们希望的结果。因此,在特征衍生环节,要客观分析把握一定的衍生维度与方法是最重要的。

07 为什么特征变量之间的相关性分析很有必要?
答:特征变量的相关性分析在数据测试、数据建模等场景中是非常重要的,对于三方数据测试,我们可以根据特征的相关性分析,得到相关字段联系的量化指标,从而为字段选择与特征引入提供很直观的参考价值;对于数据建模,特征的相关性分析已经成为一种标配,根据字段之间的相关性系数大小,可以筛选保留信息度较大的字段,不仅可以较大程度减弱模型拟合的共线性,而且可以提高模型的精准度与区分度。

08 为什么分类有序数值型特征的相关性分析不采用pearson系数?
答:特征相关性系数pearson虽然可以很方便的量化数值型特征的相关程度,但是不会考虑数值型特征的秩相关,对于分类有序数值型特征显然更在意潜在的有序性,因此针对分类有序数值型特征,我们经常可以采用spearman系数来量化分析。此外根据分析对象的类型不同,还有t检验、方差检验、卡方检验等方法来选择合适的策略。

09 为什么特征分箱后不采用分箱序号的数据,而是进一步转为woe数据?
答:特征分箱后会对每个特征的每个区间赋予一个分箱标签,例如某特征的分箱数量为10,则此特征分箱后的数据可以是0~9的序号标签,如果采用这样的分箱数据去建模,显然是不太合理的,最主要并不是将原始数据进行调整了,而是生成的分箱标签数据很大程度上更换了原特征数据的真实分布与权重关系。但是,将特征分箱后的数据转为woe,可以理解为是一种标准化的结果,最好的优点是保证了特征数据之间的权重分布,将其作为模型训练的输入数据,不仅有效降低了模型的复杂度,而且综合提升了模型的拟合效果。

10 为什么有的评分卡加工逻辑并不需要特征woe数据转换?
答:我们经常接触的逻辑回归评分卡模型,最后在生成评分卡的过程中,需要特征的woe数据进行转换,这也是我们比较熟悉的标准评分卡。其实,在实际场景中,还有一种比较简单的概率评分卡,原理逻辑相对简单,但也有很好的评价效果。例如,采用逻辑回归训练得到一个二分类模型,根据模型预测得到的概率值,可以自定义评分区间线性的将概率转换为分数,例如概率值结果分布为[0.1,0.9],则可以约束评分区间为[300,600],假设概率的业务含义是预测坏用户,则概率值0.1对应分数600,概率值0.9对应分数300,概率值每增加0.01,分数对应降低(600-300)/80=3.75。假设现有某样本的预测概率为0.46,则对应分数为600-3.75*36=465。

11 为什么对特征性能评估时要考虑特征的稳定性?
12 为什么特征相关性分析时最好同步特征与目标的关系?
13 为什么特征的IV值并不是越大越好?
14 为什么数据清洗时需需要对主键的重复值分析?
15 为什么特征缺失率较大并不代表特征的应用意义不大?
16 为什么在模型性能监测过程,特征稳定性指标PSI大于0.1并不需要直接调整?
17 为什么针对样本数据不均衡情况,分层抽样的方法效果更好?
18 为什么树模型的特征重要性指标是特征筛选的一个好方法?
19 为什么二分类模型也可以实现多分类场景?
20 为什么树模型经常需要交叉验证与网格搜索来调优模型?
以上剩余的10个问题(问题11~20),也是经常出现在风控工作与面试中的高频问题,本次我们在知识星球中为各位会员同学准备了此份内容,可移步至知识星球平台查看:
在这里插入图片描述

除了本文相关的问答系列,关于风控体系与建模篇文章的内容也一样可在星球上查阅:
在这里插入图片描述

                                                       【星球:风控建模篇】


在这里插入图片描述

                                                             【星球:风控体系篇】

~原创文章

  • 0
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值