【待继续研究】建模-听说你的坏样本不太够

最新推荐文章于 2021-03-08 21:22:16 发布

慢爬小蜗牛

最新推荐文章于 2021-03-08 21:22:16 发布

阅读量547

点赞数

分类专栏：贷前风控-风控建模

本文链接：https://blog.csdn.net/xiaoxiaoniaoer1/article/details/103676182

版权

贷前风控-风控建模专栏收录该内容

32 篇文章 8 订阅

订阅专栏

今天的话题我们分为两部分，一部分是在建模前提如何处理坏样本过少的问题，第二部分是说模型建立之后，验证你这模型的效果的方法。

首先样本过少分成两种过少的情况。一种是的的确确就是没啥坏样本，就是几十个，一百来个。另外一种就是相对于好样本，比较少，例如你有一百万的好样本，只有一万的坏样本，第二种就是属于样本不均衡的话题，这个网上的文献也都有好多，我这里就不展开了。

样本过少之我只有几十个坏样本。这种情况多数发生在产品刚上线的时候，没啥数据，但是又觉得规则撑不住，所以还是想做模型来和规则一起来维稳，这时候你可以把这种情况当做冷启动来处理，我之前讲冷启动的时候，提到一点点，这边我们来细化一下可以有哪些方法。

放弃这仅有的样本，重新寻找近似的坏样本。为什么我说要放弃这仅有的样本，如果是产品上线的初期，首先这时候你的风控不敢放松，容忍度较低，那么通过率相对较低，这是坏样本少的一个方面，另外一个方面就是，本身产品刚上线的话，可能坏样本就是近一个月进来产生的坏样本，指不定就是逾期了3天，你就觉得他是坏客户，这有些说不过去，所以这里有两个点希望你放弃这批坏样本：1、够不够坏，如果够坏，那是不是剩十几个了。2、坏样本的覆盖面不全，这个月进来的坏样本的特征不能覆盖到基本的坏样本的特征，尽管可以拟合出来的模型在当下有用，但是后续还是有很大的可能会不稳定。

在第一点中我说希望你放弃坏样本的理由，如果你的坏样本不满足第一天的条件，你可以不放弃的，我不想劝你。那么补充坏样本可以有以下几种方式：

1.其他数据的标准定义坏样本。你们公司接了什么第三方数据我不知道，但是一般一般呢，不是粗暴放款的，至少都接了简版征信，简版征信中有好几个逾期标准，举个例子哈，五年内超过90天逾期的次数，点到为止，你自己在这份数据中衍生其他逾期标准。这思路就跟你找犯人的时候，把之前有前科的人抓出来扫一遍一样。

2.使用其他数据阈值切分坏样本。我又要拿我喜欢拿出来举例子的数据----多头数据，这个方法跟警察抓嫌疑犯一样，虽然我没看到你明显犯罪了，但是我觉得你有动机。可以使用多头的数据中，你们不能容忍的超过几次的阈值，例如近一个月超过20次，那么等于大于20次的客户就是坏客户。

3.物以类聚法或者专家评分卡。根据你的经（感）验（觉）找出几个跟客户逾不逾期的强相关变量，最好是数值型的变量，这时候可以把那之前提到的那几十个坏样本，使用聚类（建议knn）找出，哪一类的坏样本的占比最高的，把这个类的样本就当做坏样本。后者使用专家评分卡，找出专家评分卡下分数比较低的那5%-10%。

4.使用人工标准。那么我们在审批环节中（假设你们还是有人工介入的），这时候可以概括两种拒绝的人：1、系统拒绝，2、人工拒绝。那么系统拒绝的客户，你可以定义为，他一出来，你一眼就知道他是坏人，人工拒绝的客户，你可以理解为，这货一路伪装了好多东西，但是最后被你们公司高端的审批高超的话术征服了，道出了他想犯罪的想法，然后你叫他滚，然后他犯罪不遂，但是没有你们高端的审批，这个人就可能变成你们公司的坏客户。那么这里说一个问题，就是公司做模型是为了什么，为的节省人力，最理想的状态就是风控的各个环节可以让90%的客户完成审核审批，10%人工核验，你们要是有种100%风控系统全自动审批，我也不拦你。所以你这时候，你就发现，你顶着风控建模师的职称，你的工作就变成把这本应人工拒绝的客户变成你的模型能拒绝的，所以人工拒绝的客户就变成你的坏客户了，这些思路顺着下去，你可以分析出更多适合你的模型的坏客户。

5.无监督建模。这个方法是区别于以上四个方法，以上都是在说怎么找出坏样本，因为我们要做监督模型，那么要是你有种一点，你跟领导说，我觉得我做无监督的效果也可以做的很牛逼，这我也不拦你的，毕竟建模的思维本来就是扩散，这个就有个问题就是说，如果是无监督的话，那么可能部署到系统上是个问题。

慢爬小蜗牛

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【待继续研究】建模-听说你的坏样本不太够

今天的话题我们分为两部分，一部分是在建模前提如何处理坏样本过少的问题，第二部分是说模型建立之后，验证你这模型的效果的方法。首先样本过少分成两种过少的情况。一种是的的确确就是没啥坏样本，就是几十个，一百来个。另外一种就是相对于好样本，比较少，例如你有一百万的好样本，只有一万的坏样本，第二种就是属于样本不均衡的话题，这个网上的文献也都有好多，我这里就不展开了。样本过少之我只有几十个...
复制链接

扫一扫

专栏目录