这篇文章说说特征工程(反欺诈与征信变量)

最新推荐文章于 2024-11-12 19:19:01 发布

番茄风控

最新推荐文章于 2024-11-12 19:19:01 发布

阅读量982

点赞数 2

分类专栏：番茄风控大数据公众号文章标签：风控大数据反欺诈征信

本文链接：https://blog.csdn.net/weixin_45545159/article/details/119720621

版权

番茄风控大数据公众号专栏收录该内容

480 篇文章

订阅专栏

最近有同学跟我们讨论人行征信数据和反欺诈模型/策略中如何进行变量衍生。今天跟大家讲解下变量特征工程的衍生方法，学会这这一套特征变量衍生，不管是模型还是策略，应用到哪一个场景中都是适用的。本文就给大家介绍下特征工程衍生的相关的方法。
我们通常可以把数据分为四个level：
1.Nominal level
根据名字描述：比如性别，人名，手机号前缀，手机号归属地，手机卡运营商，购买渠道，app版本，钱包购买类型，联系人关系，设备ID，设备品牌，密码，IP网络信息，IP省，IP市，代理信息等等，每个类别是平行的关系，属于定性特征。对这类特征我们能做的数学处理只有统计他们每个类别数据出现的频率。常见的对数据的编码方式有：
Dummy encoding：
以性别数据为例，因为性别只有男性女性两个选择，判断一个人的性别可以只有男性一个特征，下面用0和1进行编码，男性用1表示，女性用0表示。相当于表示2个选项只需要1个特征。扩展到n个选项时，n个选项只需要n-1个特征，最后一个特征用全0来表示。
在这里插入图片描述
one-hot encoding：
与dummy encoding类似，只是n个选项需要n个特征来表述，一条记录必定有一个特征是1，其余均为0，如下图所示：

两种编码方式相比较，one-hot encoding易于理解，但是表示同样的数据多用了一维特征，添加了多余的自由度。用在回归问题上wx+b，相当于多了一个xi，多了一个wi，会导致问题缺点，就是容易导致过拟合，需要引入正则化的方式约束wi。
2.Ordinal level
在nominal level的基础上，增加了有序的特征，比如收入的低、中、高。中是介于低和高之间的，不同类别之间存在高低、大小关系。需要说明的是，这类数据仍然属于类别特征。这类数据可以使用连续整数进行编码，如0代表低，1代表中，2代表高。编码后，我们可以计算数据的一些统计信息，例如中位数，分位数以及绘制箱型图等。比如在会员等级上，学历信息，收入等级。
3.Interva level
反映变量的连续变化，可以画出两个变量特征的关系曲线，以发觉变量之间的变化趋势。比如对于手机号码登录时长，关机时间，联系人号码近N天无>30s的主叫通话记录，设备相邻两次注册时间，7天内设备上提交不同的账户数量，设备关联手机数，同一账户最近4小时关联ip数，注册、登录时间间隔，登录购买钱包时间间隔，设备购买钱包次数，失败后变更IP尝试数量等等

4.Ratio level
这个level的数据在intervallevel的基础上还有乘除的能力，比如金钱数额，物品重量等。一般也就理财价格*数量，来计算总额的数据。
而在相关的特征衍生中，我们经常用到的两大数据衍生方式是：
a.技术衍生
** 数学运算**：数量、金额求和求积等等
** 二值化**：是否类型的字段做1和0
** 特征离散化**：提取连续型变量特征的非线性影响并减弱个别数值（或异常值）的作用强度
技术衍生的特征通过没有业务逻辑，就像冷冰冰的一串串数字，在业务的角度来看都缺乏相关的逻辑，于是我们需要增加也有意义基于业务角度衍生的逻辑。从目前各种模型跟策略的角度来看，基于业务角度衍生的数据才是具有生命力也最容易被业务接收。我们先讲逻辑，再举例讲解。
b.特征衍生
从特征的业务意义出发，生成具有不同层面业务含义的新特征。方法：逻辑关联、频率分析、相对强度水平等。比如在相关的反欺诈场景中，我们基于业务的角度衍生的特征衍生变量有以下类型：
** 逻辑关联**：
同一账户订单12小时内ip省、ip市是否一致；同一账户订单24小时内ip省、ip市是否一致；订单金额小数点末尾是99；购买时间是否在凌晨12点到4点；24小时内同一电话不同设备提交的购买次数>3次；7天内同一电话不同设备提交的购买次数>7次；24小时内同一设备不同电话提交的购买次数>3次；7天内同一设备不同电话提交的购买次数>7次；注册手机号与购买钱包ip省，市是否相同；购买时版本是否是新版等等
垃圾注册：同一设备注册和登录手机号是否一致；同一设备24小时内注册数量是否＞3；手机号码、银行卡、姓名、身份证号一致/不一致；银行卡、姓名、身份证号一致/不一致；身份证号、姓名、手机号码一致/不一致；姓名、身份证号一致/不一致；紧急联系人号码近7天无通话记录，同一设备注册的性别是否失衡；工作地址，住房及租房地址是否雷同；紧急联系人是否关联多个账户；注册手机号是否是虚拟运营商；地址信息是否雷同；注册时间是否在凌晨12点到4点等等**
频率分析**：最近一周购买钱包的次数；一天内不同地区登录次数；最近1周/24小时同一号码购买次数，总额；7天内同一设备注册手机数量；7天内同一手机登录不同设备次数；7天内设备不同电话购买次数；购买年龄；时间段购买次数等等**
相对强度水平**：单次购买金额是否小于100元，单次购买金额末尾是否是99，24小时内购买金额比上次是否多1w元等
再比如以番茄风控较早的文章中，开发的催收模型为例，变量最显著的仍是贷后相关变量，比如BP、KTPT-RATE等变量，一个变量的iv就能达到0.2的水平。追踪其原因，就会发现BP是打破承诺的业务含义，试想一位客户经常性地不按照还款日还款，并且在被催收后屡次承诺还款而不还，有这种行为变量的客户很难想象会按时履约。
数据界一直流行着一句话：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。课件特征工程的重要性，做特征工程也是最复杂的跟最耗时间的事情。
在最开始，我们提及了征信数据，那怎么能不见相关的征信数据共飨各位读者，请看这个内容，相关的excel也存放至知识星球平台，可至星球查阅：
在这里插入图片描述
~原创文章
…
end