关于模型分箱,最容易被忽略的这几点

关注 “番茄风控大数据”,获取更多数据分析与风控大数据的实用干货。
 

许多年前,在开发模型的时,做各个变量的分箱,基本都是用excel自己手动一个一个调变量的具体分箱。那个时候没有特别好的工具,可以帮助实现好的分箱。不像现在这样,工具特别多,算法特别高大上。我们那时也就一个逻辑回归走天下。虽然凭借一个excel,变量单分箱都需要调整好几天的时间。但是还是一样能到不错的效果。

现在的同学是幸福得多,工具也非常先进,各种python自带scorecard包、R里自带函数, sas em的手动分箱。瞬间就能将千上万个变量分裂成,效率不在话下。

好在,我们那时也大数据还没盛行。能用的数据基本也就是pboc,即使做好衍生变量,到顶了也就百来个变量以内,所以还不至于做变量分箱导致内出血的程度。

然,时代变了,技术日新月异。大数据时代爆发的数据量,刚开始那段时间的确让我们有些措手不及,但积极拥抱变化就不会被社会淘汰。我也是在大数据特别火热的时候,积极学习那些工具。

时代造就英雄,虽然我现在跟最后两个字也不不搭边。但是摆在眼前的现实,确实让我,让我们,都积极投入这场变革中,不得不拥抱这个数据维度特别丰富的金融行业。虽然行业还是这个行业,但是很多内容都发生了不少变化。大数据+移动互联网很自然为金融业务提现了非常好的落地变量。

然,在我目前基本会用各种技术的时候,各种深度学习、神经网络、xgb等算法都一一尝试,并且去跑一通模型的时,得到的模型效果似乎也并没有得到理想中特别显眼、飞跃跟质变的数据。所以我常常回顾我的模型流程里哪里出了问题。

我尝试着从算法和业务的角度出发去思考问题。

逻辑回归,算法的逻辑是最大似然估计,在对log进行相应的转换之后,各个变量之间就能成为多项式的累加。而从模型的定义就可以看出来,只要每个变量(分箱式是B/G)提升就一定会让等式LN(P/1-P)提升。

所以优化每一单变量数值,就一定会带来模型效果的提升。

回顾模型整个开发链条来看,最关键的两个部分能区分新手建模人员跟老手建模人员的就是分箱跟参数调优。当然参数调优基本算模型最后的一个步骤,把梳理好的变量统一扔进模型用算法进行参数调优,这一步骤基本也算是整个模型耗时较少一part,今天暂不列为讨论范围。

而这里契合开篇所提分箱部分,也决定着一位有经验的建模人员跟小白建模人员的差别的高低。对于某些变量,为什么是需要分5箱就是比分3箱好,为什么有些变量就是必须分出来空箱单独分成一箱,而其他变量里的空箱可以跟其他变量进行组合,还有为什么有些看起来在业务不是非常合理的变量其实分好箱后,得分却非常高?

这里提到的几个问题,我们用具体的例子跟各位一一说明。

1.空箱能单独分成一箱的情况是什么?这里有个逾期开卡数量/总贷款数量(其中:总贷款数量=开卡数量+贷款数量),我们命名为card_to_load这么一个变量。在具体的变量定义的时候,会发现当没有信用卡时候,值为0是为a类;没有信用卡和没有贷款为b类,其余有值的为c类;在以上的分析中只是基于最基本的数学逻辑分析。

这里如果再结合一下业务逻辑,思考得再深入些,我们会发现:如果信用卡只有一张时候,总贷款数量多笔时候会导致card_to_load的值非常小,而如果他还款了,并且总贷款数量没有值的时候,card_to_load的值就会达到100%,这个值会增大特别厉害;所以当有这个变量存在时候,就必须将开卡数量基数单独列出来讨论清楚,从而分箱会根据业务的含义展开得更丰富些。

所以这里,我们可以将没有信用卡时候的a类,没有信用卡和没有贷款的b类,合成一箱,证明没有借债的风险;我们将开卡数量为1列为一箱,不管他有没有还款,都只能证明有少量的风险;最后我们再将其他数值归为一大类,再对这一大类划分数值进行分箱。

2.再举一个变量在业务看起来非常不合理的例子。一个负债比Dept_rate的变量,会在模型分的箱里看起来,得分会随着负债的增加而增加。这在业务里似乎有些难以介绍得通的变量。但如果站在风险全流程来观察,这个变量又会如何?评分卡因为是放在准入之后的节点的,而在之前因为真正负债特别高的客户都已经被剔除出局了,所以剩下的都是能进到模型并且有偿债能力的客户。

Dept_rate= 负债/收入,在进入的客群里,收入一般都是被公司偏低预估,所以根据历史推断借款越多越能借到更多的钱。如果单单看这一变量,而忽略了风控政策跟产品的关系,模型开发出来的变量总是感觉有些难以理解。

风控是一个业务凌驾在模型上的一个部门,凡事让业务排在前面,模型策略都是辅助风控完善的手段。希望各位风控er做什么都多想一下业务逻辑。

---------------------- --------------------- ------------------------------------- ----------------------
十年职场生涯,这个长期混迹在风控界和科技界,摸爬滚打的大叔,曾经就职于全国最大的固网运营商平台、国内最大的ERP软件公司和一家老牌的互金公司,如果你想了解他,欢迎关注 “番茄风控大数据”一起学习一起聊!

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值