风控策略之黑名单

最新推荐文章于 2025-04-30 09:36:22 发布

公众号-行可可

最新推荐文章于 2025-04-30 09:36:22 发布

阅读量3.7k

点赞数 3

分类专栏：风控策略文章标签：风控机器学习互联网金融策略反欺诈

本文链接：https://blog.csdn.net/weixin_44913707/article/details/101349998

版权

风控策略专栏收录该内容

4 篇文章

订阅专栏

我们经常会听到银行的同事说征信报告发生了连三累六就不会下款了，这里大概就是一个黑名单的定义，它属于一个风控规则，命中就会被决策引擎拒绝，那么这个连三累六是怎么定义的呢？随着互联网金融，大数据的崛起，黑名单的数据源和规则定义更加多元广泛，产生了更多的风控黑名单规则因子，如何对黑名单更加深入的了解呢？

（尤其现在市场合规持牌银行机构，持牌消费金融公司，保险公司，头部p2p，小贷公司，大量不知名的游击借贷公司一同面向借款人，加之借款人信用意思，资金需求，政策导向，就业环境等导致借款人还款具有较大不稳定性：同一个人只还上征信的，不还p2p，小贷的。在p2p还款良好的个人听闻p2p监管退出开始建群集体恶意逃废债，显然这里的一个人是相对的黑名单也是相对的非黑名单）

1、内部黑名单
企业通过客户周期数据表现，建立自身的黑名单数据库，一般不同的产品带来的是不同的风险客群，数据表现也尽不相同，所以如果一个黑名单策略规则就相同的使用在不同的产品是不合理的。本人是一名数据分析师，遵守经验主义更崇尚数据分析量化结果，因为一切的最后结果都在最后的收益量化上呈现。

定义：一般类似于风控建模中目标GB的确认可以利用滚动率、迁徙来定义黑名单。例如，像银行通常为90天，也就是连续3次30天，银行有银监会下发的贷款指导分类原则指导。像本人之前从事的现金贷PDL短周期PD10就很难再有回款了，黑名单的规则定义逾期天数大于10，回款不到1%。更早的PDL一般是到PD7回款率就几乎没有了，这也是很多复借规则有一条策略规则（上一次订单逾期天数）所在的原因，这个规则的阈值没有设置为5，也没有设置为13，而设置为7，从迁徙报表可以一眼看出，这就是量化的魅力。

维护：既然定义好了目标就一直不变了么。不是这样的，像银行体系虽然大周期，最近也看到很多微文说银行部分也开始用M2了，说明整体资产恶化，任何事情都是永恒变化着的，随着经济结构发展的变化，人民信用意识形态迁移，市场金融产品布局渗透，政策监管对资金流向的影响，对产品的风险表现影响很大，所以这个黑名单的定义也要维护，如果我的客户不断下沉，上文说道的7天就要改变5天（举例，需要通过数据分析），因为从数据上逾期6，7天的客户我是损失的，给我不能带来收益。复借我们就没有在必要给他下款，如果我们风控部门还在悠闲的用着之前一套定义准则，那只有等着公司的钱流外人田了，或者更严重的就是风控走人，团队换人，这个我说一点不严重，我之前呆的两个公司都遇到了，一个是整体风控团队走人，一个是负责人走人。

2、外部黑名单

三方黑名单的收集来源;
行业共享：典型的af就是合作了同业的p2p，进行共享，他会给你返回具体逾期天数等级，产品，风险等级等字段；
爬虫收集：例如公检法执行信息，很多公司会爬虫的相关网站抓取数据产生规则；
公共库直连：例如某公司产品宣传的公安库直连，近3个月到20年内的时间切片数据，类别有在逃、涉毒、吸毒、前科；
支付数据：近几年兴期的支付公司为主要数据对外提供风控解决方案，他们自身的黑名单就是通过对支付数据的挖掘进行定义的（怎么挖掘：简单的就是某个客户在三方支付扣款余额不足次数之类的统计）
设备数据：通过设备数据（短信，定位，设备指纹等）来定义好坏客户，其中短信的挖掘厂商产品比较成熟，因为黑名单客户都被短信催收过，而且从短信的内容你大致可以看出这个客户是在入催，中期，处置的大概哪个阶段。
其他：催收公司合作，数据交换（合不合规，反正是有的），这个肯定区分度很强哈，直接就是被催收的客户，这是我两年前接触过得，不知道现在还有没有。
就想到这些了，思路短缺，欢迎补充！

其实内部黑名单没有什么好说的，外部黑名单就很有意思了，在北京工作这3年多，接触了太多的三方数据，几乎每家都有黑名单的输出，短信的，支付的，人法公安的，设备的，银行的等等，很多类别种类，很丰富。
面对这种黑名单，本人的经验建议不要直接急于上规则，拿来就用，前几年很多公司不太注意数据质量，我在的三家公司就是拿来就用，那时候也很少有专业的分析人员。懂数学的不懂业务，懂业务的不懂数学，大部门分析人员还在用excel，很难搞出令人开心的分析。原因主要：首先你不了解这个数据收集来源，底层数据，第二个不知道真实性，第三个也不知道在你的产品上是否有区分度。当然数据方会说的天花乱坠，这时候作为一名策略分析师是我最喜欢的事了，我们回溯下，或者最好我们线上跑一跑，就是那种空跑不决策，数据先调用着，然后等待有表现的时候我们在去分析。说的再天花乱坠，也要等效果出来，我们合同在走起。

效用评估

：三方的黑名单就不需要自己定义了，因为三方已经定义好了，大部分给的是字段，剩下的就是需要我们做的是评估，回溯测试也好，线上测试也罢，后续就是需要我们分析这个因子。那么这个因子命中多少的首逾，表现多少的坏账，有多少的回款（其实这三指标相辅相成的）我们才会觉得合适作为黑名单规则呢。例如坏账；100%没得说必须用哈，60%呢，50%呢，其实我这个也有很多的思考疑虑，高了完美，低了不谨慎，其实还是从盈亏的角度或者风控kpi的角度来定义，我觉得没问题的。假如我风控kpi的PD20 是15%。那么这个时候这个因子PD20的表现是30%，我觉得定义黑名单是没问题的，大于15%也没问题。记得之前接触过r3的规则自定，就是是坏账的2倍作为拒绝阈值。没有作为黑名单定义但是有一定的区分度，也可用在模型中作为变量，就像模型中，我们通过的客户最底分数段中的坏账肯定比整体坏账高很多的，但是我们并没有拒绝这一部分人群。他考虑了通过率，成本，转化，收益很多因素的。

总结我遇到的几个有意思的东西

1：别认为黑名单就把人家黑了：记得第一份工作我们用是br，他们的名单叫特殊名单，然后里面有具体的原因。当时我们做的是医美客户，额度还比较大，也是由于当时技术的原因，这个规则没有生效。然后我很好奇的等待着这几个命中了特殊名单规则的客户，结果他们表现的很好，这是我第一次开始怀疑黑名单，从那时候我经过的黑名单数据必须要在上线之前或者成为策略之前要测试一个周期。这个事件说明了，你的黑名单黑了我的白名单，呵呵呵呵呵。
有的三方做开发者推送服务的，在产品介绍中介绍黑名单的数据来源：基于历史数据，近一年内存在大于90天的记录，拥有千万级黑名单用户，千万级哈哈，一个头部的公司全部用户又有多少哈，通过互金行为分析，关系挖掘，这些介绍都是值得怀疑的。不是借贷公司，千万级黑名单，笼统的说明黑名单数据来源这些都是严重值得怀疑的，所以必须进行评估验证。

2：关于命中率的问题：刨除集中攻击，任何信贷产品的黑名单命中率都是有一定的区间范围，这个范围比规则，模型决绝的低。因为它要求稳准狠，所以一般黑名单的规则命中率在0-10%。在10%上下的，一般也就是客群最差的产品了，稳定的也在3-5之间。所以当你使用一个黑名单数据源规则时，如果命中率是15%了，或者更高，作为一个经验的行家。这个命中率就是值得怀疑的，要不数据有问题。要不这根本就不是一个这正的黑名单规则。这个我遇到的也很多，一般这样的效用也不大。不仅没有效用，而且损失了很多用户。往往被运营市场的同学追着问。如果你简单的说这是我们接的三方，测试返回都没问题。他们命中黑名单了，然后就拒绝了人家。我觉得作为一个风控是不合格的，你必须知道这个是有问题的。

3：关于成本问题：在风控流程中位置
我们看到太多的教学课件，太多的ppt，黑名单规则放哪里了：都在最前面的流程吧，肯定在反欺诈，模型前面。但是我想说。如果一个黑名单1元（几乎都是查得收费），一个模型0.5，为什么不把黑名单放在最后呢。模型会拒绝大部分的人，黑名单会拒绝少部分的人。我们换个思路：通过的人成本都是0.5，因为这两条数据都跑了且没有命中黑名单，模型通过，但是拒绝的人呢，只选择其中一个数据你会选择哪个，我用0.5的成本就可以把一个人拒绝掉，而不需要使用1元的黑名单去拒绝，如果使用黑名单去拒绝则我的拒绝成本增加了3倍。我们之前都是结合通过率，收费方式，结合风控流程，然后设计最低的成本，之后计算下来真的可以节省一大笔哦。

综上简述：黑名单需要从从数据源、评估方法、成本优化、动态管理角度等进行细致的针对性的详细了解和分析，达到最佳使用决策，以上只是本人这几年经历的工作的实战片面经验，希望给读者贡献一点源泉，谢谢。