WOE转化的意义

最新推荐文章于 2024-05-30 17:57:22 发布

yaoqsm

最新推荐文章于 2024-05-30 17:57:22 发布

阅读量5.9k

点赞数 1

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/yaoqsm/article/details/86645644

版权

机器学习算法专栏收录该内容

9 篇文章 0 订阅

订阅专栏

之前一直在网上搜为什么在做评分卡的时候，要把bian变量转化为WOE，现在找到一定的原因，记录一下。

先说结论：转化为WOE后，WOE值与对应的违约率是呈单调相反的关系。

即WOE值越高，其违约率越低。

对应的违约率：该箱内，该箱坏样本占该箱总样本的比例。

因为没有转化前，违约率与变量的箱shi是没有太大关系的。

上图

很明显，cutpoint与badrate是没有线性关系的，而woe与badrate就是线性相关的。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

yaoqsm

关注关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

ML之Scorecard：机器学习中特征工程之WOE编码(离散变量编码/有监督)的简介(两大功能/评分卡场景/意义)、计算公式(局部和全局的差异)、案例应用之详细攻略

近期请国内外头部出版社可尽快私信博主！——心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，谦虚，自律，反思，成长，还算是比较正能量的博主，公益免费传播……内心特别想在AI界做出一些可以推进历史进程影响力的东西(兴趣使然，有点小情怀，也有点使命感呀)…

04-17

3324

DataScience：机器学习中特征工程之WOE编码(离散变量编码/有监督)的简介(两大功能/评分卡场景/意义)、计算公式(局部和全局的差异)、案例应用之详细攻略目录特征工程之WOE编码—离散变量编码(有监督) 特征工程之WOE编码—离散变量编码(有监督) 1、WOE编码的概述：两大功能(特征归一化/特征选择【寻找WOE值更大的特征】)、评分卡场景(WOE结合LoR模型绝配) 背景提出问题：评分卡模型中，怎样对字段的每个分段进行评分呢？这个评分是怎么来的？解决方案

WOE编码与IV值

咔咔响

08-11

1705

1.woe又叫证据权重，用来衡量对先验认识修正的增量2.woe的实质是表示当前分箱中好坏客户的各自占总体好坏客户比例的差异3.woe可以将非线性变量线性处理化，提高业务解释性4.woe能...

参与评论您还未登录，请先登录后发表或查看评论

风控-评分卡之woe转换

02-15

3341

WOE（Weight of Evidence）即证据权重，可以将logistic回归模型转化为标准评分卡格式，WOE是对原始自变量的一种编码形式，要对一个变量进行WOE编码，需要首先把这个变量进行分组处理（也叫离散化、分箱）。WOE的公式就是：WOE=ln(好客户占比/坏客户占比)×100%=优势比下面举例说明： woe计算我们把这个变量离散化为了4个分段：<100元，[100...

woe特征转换

Kyrie_Irving的博客

10-11

2229

woe特征转换 class CattoWoe(BaseEstimator, TransformerMixin): """ Parameters ---------- label : the label column name Attributes ---------- woe_dict : dict of intervals,example ...

数据分箱6——分箱结果进行WOE转化

呆萌的代Ma

12-14

3931

WOE的具体公式与含义请参考：特征筛选7——WOE(Weight of Evidence)/IV值(Information Value)筛选特征（有监督筛选） WOE转化可以将分箱的阈值覆盖原有的值，一般来讲并不会改变预测精度，但是可以为可解释性提供方便更深入的理解请参考：风控模型—WOE与IV指标的深入理解应用：https://zhuanlan.zhihu.com/p/80134853 示例代码我们使用一个分箱的库：scorecardbundle来做分箱 scorecardbundle gith

【转】对数据集进行最优分箱和WOE转换

Toby的博客

12-06

1427

对数据集进行最优分箱和WOE转换 - Reynold.C - 博客园对数据集分箱的方式三种，等宽等频最优，下面介绍对数据集进行最优分箱，分箱的其他介绍可以查看其他的博文，具体在这就不细说了：大体步骤： woe.py conf.py woe_executor.py thttps://www.cnblogs.com/leixingzhi7/p/9366908.html https://github.com/boredbird/woe/tree/master/woehttps://github.com/...

笔记︱信用风险模型（申请评分、行为评分）与数据准备（违约期限、WOE转化）

素质云笔记

06-20

5万+

巴塞尔协议定义了金融风险类型：市场风险、作业风险、信用风险。信用风险ABC模型有进件申请评分、行为评分、催收评分。一、数据准备 1、排除一些特定的建模客户用于建模的客户或者申请者必须是日常审批过程中接触到的，需要排除以下两类人：异常行为：销户、按条例拒绝、特殊账户；特殊账户：出国、卡丢失/失窃、死亡、未成年、员工账户、VIP；其他：欺诈（根据反欺诈评分）、主动销户

逻辑回归中常用的概念： WOE、IV详解

乐想屋

08-16

2万+

为了挑选并构造出对目标变量有较高预测力的自变量，需要对变量进行WOE编码，通过IV值的看变量的贡献。1、WOE(weight of Evidence 证据权重)...

风控建模常用指标——WOE/IV/COR/VIF/PSI总结以及实现代码

最新发布

LUyan10086的博客

05-30

1423

在金融领域，风险控制（风控）是维护金融稳定和安全的重要环节。随着大数据时代的到来，金融机构越来越依赖于数据驱动的风控模型来评估和量化风险。在构建这些模型时，一系列关键指标成为了衡量和解释模型性能的基石。其中，WOE（Weight of Evidence）、IV（Information Value）、COR（相关系数）、VIF（方差膨胀因子）和PSI（人口稳定性指数）等指标因其在模型建立和评估中的独特作用而备受重视。

建模常用的概念介绍1： WOE、IV

乐想屋

12-12

1万+

为了挑选并构造出对目标变量有较高预测力的自变量，需要对变量进行WOE编码，通过IV值的看变量的贡献。1、WOE(weight of Evidence 证据权重) 1）解释及公式 WOE是对原始自变量的一种编码形式。要对一个变量进行WOE编码，需要首先把这个变量进行分组处理/离散化处理（等宽切割，等高切割，或者利用决策树来切割）。分组后，对于第i组，WOE的计算公式如下：

WOE IV值

天狼星的博客

02-23

2026

转载：评分卡模型剖析之一（woe、IV、ROC、信息熵）在开发信用评分卡模型时，连续变量的离散化是特征工程的重要步骤之一，主要是将连续变量转换为离散变量，同时根据不同分段对目标变量的影响力作数值转换。在将连续变量离散化的过程中，如果仅仅按照分段的顺序赋予新的数值，则无法确定新数值的具体值，合理的方法是按照不同分段对目标变量的影响赋值。 WOE公式如下： woei=ln(py1py0...

为什么金融领域建模需要进行WoE和IV

Buevara的博客

08-23

2194

金融领域(尤其是评分卡)建模，模型并不复杂，虽然网上到处都是神经网络、xgboost的文章，但当下的建模过程中（至少在金融风控领域）并没有完全摆脱logistic模型，原因大致有以下几点： 1.logistic模型客群变化的敏感度不如其他高复杂度模型，因此稳健更好，鲁棒性更强。 2.模型直观。系数含义好阐述、易理解。对金融领域高管以及银行出身的建模专家，变量系数可以跟他们的业内知识做交叉验证，更容易让人信服。 3.也是基于2的模型直观性，当模型效果衰减的时候，logistic模型能更好的诊断病因。在使

基于python的信用卡评分模型_python评分卡建模-WOE转换和IV值

weixin_39610678的博客

11-25

471

WOE全称为 Weight Of Evidence，即证据权重，就是自变量取某个值时对目标变量的影响good_i和bad_i是该变量在各属性上对应的好客户数和坏客户数，good和bad是样本总体好客户数和坏客户数；WOE值越高，代表着该组对应的变量属性是坏客户的风险越低；IV信息值，IV仅仅针对二元分类的目标值和名义变量，当应用于顺序变量时，顺序将会被忽略，该变量会当做名义变量来使用；（k为变量的...

R woe

u012891477的专栏

02-19

3629

将类别变量数值化，可以参考woe给赋值在r里面的实现代码如下： library(proto) # 先把需要的数值化的类别变量挑出来，习惯sql的直接写名称，所以使用rsql library(gsubfn) library(DBI) library(RSQLite) library(sqldf) library(tcltk) woe_dt1 x302,x303,x30

评分卡入模变量系数都是正的

weixin_52157968的博客

04-07

388

WoE（Weight of Evidence）转换是一种将分类变量的每个类别映射到一个连续的数值，这个数值反映了该类别相对于参考类别（通常是目标事件发生率最低的类别）对于目标事件发生概率的影响强度。经过WoE转换后的变量系数都是正的，这是为了确保模型的输出能够正确反映不同类别对目标事件发生概率的影响，并且保持模型的解释性和一致性。这种设计使得评分卡模型更容易被业务理解和接受，同时也有助于模型在实际应用中的有效性。

python评分卡3_woe与IV分箱实现

u012338969的博客

05-08

4048

本系列分以下章节： python评分卡1_woe与IV值 python评分卡2_woe与IV分箱方法 python评分卡3_woe与IV分箱实现 python评分卡4_logistics回归模型原理 python评分卡5_logistics回归模型实现 python评分卡6_刻度与logistics模型 1.Python第三方库打开网址：https://pypi.org 在搜寻框中输入 woe，如下图所示: [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pTuAGG0s-

特征锦囊：金融风控里的WOE前的分箱一定要单调吗？

Pysamlam的博客

10-19

3308

今日锦囊特征锦囊：金融风控里的WOE前的分箱一定要单调吗？今天我们来讲讲一个金融风控里的“常识点”，就是那种我们习以为常但若要讲出个所以然来比较困难的点，正如标题所言：WOE前的分箱一定...

数据挖掘模型中的IV和WOE详解

热门推荐

一些杂七杂八的想法

03-02

25万+

1.IV的用途 IV的全称是Information Value，中文意思是信息价值，或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时，经常需要对自变量进行筛选。比如我们有200个候选自变量，通常情况下，不会直接把200个变量直接放到模型中去进行拟合训练，而是会用一些方法，从这200个自变量中挑选一些出来，放进模型，形成入模变量列表。那么我们怎么去挑选入模变量呢？挑选入模变

银行信用评分卡中的WOE在干什么？

slamer的专栏

08-26

1万+

woe全称叫Weight of Evidence，常用在风险评估、授信评分卡等领域。 IV全称是Information value，可通过woe加权求和得到，衡量自变量对应变量的预测能力。虽然网上到处都是神经网络、xgboost的文章，但当下的建模过程中（至少在金融风控领域）并没有完全摆脱logistic模型，原因大致有以下几点： logistic模型客群变化的敏感度不如其他高复杂度模型，...

WOE转化后查看每组分箱的IV

05-30

在WOE转换后，可以使用IV（Information Value）来衡量每个分箱的预测能力。通常来说，一个好的分箱方案应该具有较高的IV值，因为这意味着该方案能够很好地区分目标事件和非目标事件。在Python中，可以使用以下函数来计算每个分箱的IV值： 1. pandas.crosstab()函数：用于生成交叉表，可以用于统计每个分箱中的样本数和目标变量的分布情况。 2. pandas.DataFrame.apply()函数：用于对数据集中的每一列应用给定的函数，可以用于计算每个分箱的IV值。 3. numpy.log()函数：用于计算自然对数。 4. pandas.DataFrame.sum()函数：用于计算数据集中的每一列之和。 5. pandas.DataFrame.eval()函数：用于计算表达式的值。 6. pandas.concat()函数：用于将两个或多个数据集按照指定的轴进行拼接。具体的计算步骤可以参考以下代码： ``` python import pandas as pd import numpy as np # 计算每个分箱的WOE和IV值 def calc_woe_iv(df, col, target): total = df.groupby(col)[target].agg(['count', 'sum']) total.columns = ['total', 'bad'] total['good'] = total['total'] - total['bad'] total['bad_rate'] = total['bad'] / total['total'] total['good_rate'] = total['good'] / total['total'] total['woe'] = np.log(total['good_rate'] / total['bad_rate']) total['iv'] = (total['good_rate'] - total['bad_rate']) * total['woe'] return total['iv'].sum() # 计算每个变量的IV值 def calc_iv(df, target): iv_values = [] for col in df.columns: if col != target: iv = calc_woe_iv(df, col, target) iv_values.append((col, iv)) iv_values = sorted(iv_values, key=lambda x: x[1], reverse=True) return pd.DataFrame(iv_values, columns=['Variable', 'IV']) # 计算数据集的IV值 iv = calc_iv(df, target) print(iv) ``` 其中，`calc_woe_iv()`函数用于计算每个分箱的IV值，`calc_iv()`函数用于计算每个变量的IV值，最终得到的结果是一个DataFrame，其中包含了每个变量的名称和对应的IV值。