信贷风险控制理论操作流程——特征工程、特征衍生

特征工程:

  • 一 定义问题

    • 基本统计分析

      • 工具选择

    • 建模分析(选择算法)

      • 监督/无监督

      • 监督

        • 分类

        • 回归

  • 算法确定下来之后

    • 数据预处理

    • 特征衍生

    • 特征选择

  • 风控建模的时候需要注意

    • 信用评分分段之后,正常的效果,评分和预期的概率应该是单调的

      • 按照评分进行分组

      • 评分越高的组,坏人的概率应该更低

    • 如果评分和预计的概率不是单调的,模型时有问题的

    • 模型人群分布的稳定性

      • 在业务没有变化的前提下,间隔一段时间,在同一分段的人群总数占全体用户的比例,应该不会有大的波动

  • 跨时间验证

    • 上线之前 需要用最近时间的数据对模型进行评估

    • 训练模型的时候 最近两个月~6个月的数据 是不会用来训练模型

  • 正常的信贷业务 坏账率 合理比例 低于5%

  • B卡 贷后管理 用户注册数据 从三方购买的,如果半年之内 没有新的操作

    • 从不同渠道买来的评分数据 有效期半年

    • 用户第一次来的时候 个人用户的数据不全,需要从其它合作方购买 同盾

特征衍生:

  • 利用数值量的统计值做特征衍生

    • 如果一个用户(id)在数据集中有多条记录,可以根据这个id做分组,获取当前id对应的所有记录,对这些记录求

      • 平均值

      • 标准差(方差)

      • 求和

      • 求最大/最小

      • 极差

      • 计算条目数量

数据处理-》特征衍生-》特征选择

 

  • 模型融合思路

    • 训练两个模型

      • MSE 在误差比较大的情况下 损失比MAE的惩罚更严重

        • 误差平方求平均

      • MAE

        • 误差绝对值求平均

      • 误差比较大的时候 更多的用MSE的结果放到最终的模型中

      • 误差比较小的时候 用MAE

  • 特征衍生

    • 如果是多个分类特征 类别的值都是0,1 通过相乘做特征交叉

    • 特征相除 需要注意避免除0的异常 分母+1

df_data['话费稳定'] = df_data['用户账单当月总费用(元)'] / (df_data['用户当月账户余额(元)'] + 1)
df_data['相比稳定'] = df_data['用户账单当月总费用(元)'] / (df_data['用户近6个月平均消费值(元)'] + 1)
df_data['缴费稳定'] = df_data['缴费用户最近一次缴费金额(元)'] / (df_data['用户近6个月平均消费值(元)'] + 1)

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

缘 源 园

你的鼓励将是我创造的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值