评分卡模型
变量分析:
---变量一般分为连续变量与分类变量(数值与类别)
WOE(证据权重):
---good为好用户 bad为坏用户
---好用户概率p(good),坏用户概率p(bad)
WOE = ln(p(good)/p(bad))
= ln((该组中为good的频数/全部为good的频数)/(该组中为bad的频数/全部为bad的频数))
IV(信息值):
---计算公式:
IV = Σ(p(good)-p(bad))*WOE
IV值 | 预测能力 |
---|---|
<0.03 | 无预测能力 |
0.03~0.1 | 预测能力弱 |
0.1~0.3 | 预测能力一般 |
0.3~0.5 | 预测能力较强 |
>0.5 | 预测能力极高 |
分组原则:
---组间差异要大
---组内差异要小
---每组占比不低于5%
---必须有好坏分类
建模:
---数据集划分一般3-7(或者2-8)---测试集-训练集
---使用logisticRegression
评分卡:
---odds计算:
odds = p(bad)/p(good)
score = A + Bln(odds)
分配分值
逻辑回归中的sigmod函数公式:
可以转换为:
与odds关联:
最终:
Score得分:
以上W0理解为截距,W1…Wn为系数