【待继续研究】建模-听说你的坏样本不太够

今天的话题我们分为两部分,一部分是在建模前提如何处理坏样本过少的问题,第二部分是说模型建立之后,验证你这模型的效果的方法。

 

首先样本过少分成两种过少的情况。一种是的的确确就是没啥坏样本,就是几十个,一百来个。另外一种就是相对于好样本,比较少,例如你有一百万的好样本,只有一万的坏样本,第二种就是属于样本不均衡的话题,这个网上的文献也都有好多,我这里就不展开了。

 

样本过少之我只有几十个坏样本。这种情况多数发生在产品刚上线的时候,没啥数据,但是又觉得规则撑不住,所以还是想做模型来和规则一起来维稳,这时候你可以把这种情况当做冷启动来处理,我之前讲冷启动的时候,提到一点点,这边我们来细化一下可以有哪些方法。

 

放弃这仅有的样本,重新寻找近似的坏样本。为什么我说要放弃这仅有的样本,如果是产品上线的初期,首先这时候你的风控不敢放松,容忍度较低,那么通过率相对较低,这是坏样本少的一个方面,另外一个方面就是,本身产品刚上线的话,可能坏样本就是近一个月进来产生的坏样本,指不定就是逾期了3天,你就觉得他是坏客户,这有些说不过去,所以这里有两个点希望你放弃这批坏样本:1、够不够坏,如果够坏,那是不是剩十几个了。2、坏样本的覆盖面不全,这个月进来的坏样本的特征不能覆盖到基本的坏样本的特征,尽管可以拟合出来的模型在当下有用,但是后续还是有很大的可能会不稳定。

 

在第一点中我说希望你放弃坏样本的理由,如果你的坏样本不满足第一天的条件,你可以不放弃的,我不想劝你。那么补充坏样本可以有以下几种方式:

 

1.其他数据的标准定义坏样本。你们公司接了什么第三方数据我不知道,但是一般一般呢,不是粗暴放款的,至少都接了简版征信,简版征信中有好几个逾期标准,举个例子哈,五年内超过90天逾期的次数,点到为止,你自己在这份数据中衍生其他逾期标准。这思路就跟你找犯人的时候,把之前有前科的人抓出来扫一遍一样。

 

2.使用其他数据阈值切分坏样本。我又要拿我喜欢拿出来举例子的数据----多头数据,这个方法跟警察抓嫌疑犯一样,虽然我没看到你明显犯罪了,但是我觉得你有动机。可以使用多头的数据中,你们不能容忍的超过几次的阈值,例如近一个月超过20次,那么等于大于20次的客户就是坏客户。

 

3.物以类聚法或者专家评分卡。根据你的经(感)验(觉)找出几个跟客户逾不逾期的强相关变量,最好是数值型的变量,这时候可以把那之前提到的那几十个坏样本,使用聚类(建议knn)找出,哪一类的坏样本的占比最高的,把这个类的样本就当做坏样本。后者使用专家评分卡,找出专家评分卡下分数比较低的那5%-10%。

 

4.使用人工标准。那么我们在审批环节中(假设你们还是有人工介入的),这时候可以概括两种拒绝的人:1、系统拒绝,2、人工拒绝。那么系统拒绝的客户,你可以定义为,他一出来,你一眼就知道他是坏人,人工拒绝的客户,你可以理解为,这货一路伪装了好多东西,但是最后被你们公司高端的审批高超的话术征服了,道出了他想犯罪的想法,然后你叫他滚,然后他犯罪不遂,但是没有你们高端的审批,这个人就可能变成你们公司的坏客户。那么这里说一个问题,就是公司做模型是为了什么,为的节省人力,最理想的状态就是风控的各个环节可以让90%的客户完成审核审批,10%人工核验,你们要是有种100%风控系统全自动审批,我也不拦你。所以你这时候,你就发现,你顶着风控建模师的职称,你的工作就变成把这本应人工拒绝的客户变成你的模型能拒绝的,所以人工拒绝的客户就变成你的坏客户了,这些思路顺着下去,你可以分析出更多适合你的模型的坏客户。

 

5.无监督建模。这个方法是区别于以上四个方法,以上都是在说怎么找出坏样本,因为我们要做监督模型,那么要是你有种一点,你跟领导说,我觉得我做无监督的效果也可以做的很牛逼,这我也不拦你的,毕竟建模的思维本来就是扩散,这个就有个问题就是说,如果是无监督的话,那么可能部署到系统上是个问题。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值