解决 Python 中 qcut() 运行报错: Bin edges must be unique和drop duplicate edges by setting 'duplicates' kwarg

本次纠错背景,来源于互金领域信用风控建模中的变量分箱处理。(附在文末)

解决 Python 中 qcut() 函数运行报错:
Bin edges must be unique和 You can drop duplicate edges by setting the ‘duplicates’ kwarg

首先,报错如下:
在这里插入图片描述
然后,在qcut() 函数中设置duplicates参数为“drop”(不能设置为“raise”),解决(如下)。
在这里插入图片描述
本次纠错背景,来源于互金领域信用风控建模中的变量分箱处理。如下:

# 五、变量选择
# 特征变量选择(排序)对于数据分析、机器学习从业者来说非常重要。
# 好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。
# 至于Python的变量选择代码实现可以参考结合Scikit-learn介绍几种常用的特征选择方法。

# 在本文中,我们采用信用评分模型的变量选择方法,通过WOE分析方法,即是通过比较指标分箱和对应分箱的违约概率来确定指标是否符合经济意义。
# 首先我们对变量进行离散化(分箱)处理。
# 5.1 分箱处理
# 变量分箱(binning)是对连续变量离散化(discretization)的一种称呼。
# 信用评分卡开发中一般有常用的等距分段、等深分段、最优分段。
# 其中等距分段(Equval length intervals)是指分段的区间是一致的,比如年龄以十年作为一个分段;
# 等深分段(Equal frequency intervals)是先确定分段数量,然后令每个分段中数据数量大致相等;
# 最优分段(Optimal Binning)又叫监督离散化(supervised discretizaion),使用递归划分(Recursive Partitioning)将连续变量分为分段,背后是一种基于条件推断查找较佳分组的算法。

# 我们首先选择对连续变量进行最优分段,在连续变量的分布不满足最优分段的要求时,再考虑对连续变量进行等距分段。最优分箱的代码如下:
# 定义自动分箱函数

from scipy import stats
def mono_bin(Y, X, n = 20):
    r = 0
    good=Y.sum()
    bad=Y.count()-good
    while np.abs(r) < 1:
        d1 = pd.DataFrame({"X": X, "Y": Y, "Bucket": pd.qcut(X, n,duplicates="drop")}) 
        # 后面报错You can drop duplicate edges by setting the 'duplicates' kwarg,所以回到这里补充duplicates参数
        # pandas中使用qcut(),边界易出现重复值,如果为了删除重复值设置 duplicates=‘drop’,则易出现于分片个数少于指定个数的问题
        d2 = d1.groupby('Bucket', as_index = True)
        r, p = stats.spearmanr(d2.mean().X, d2.mean().Y)
        n = n - 1
    d3 = pd.DataFrame(d2.X.min(), columns = ['min'])
    d3['min']=d2.min().X
    d3['max'] = d2.max().X
    d3['sum'] = d2.sum().Y
    d3['total'] = d2.count().Y
    d3['rate'] = d2.mean().Y
    d3['woe']=np.log((d3['rate']/(1-d3['rate']))/(good/bad))
    d4 = (d3.sort_index(by = 'min')).reset_index(drop=True)
    print("=" * 60)
    print(d4)
    return d4

# 此定义函数暂未理解通透,暂且保留。这里先直接使用。
# 原帖代码没有导入scipy.stats模块,会导致下一条语句运行报错,上面补上,搞定。
# 原帖代码qcut()函数中没有设置duplicates参数,上面补上,搞定。
# 自定义函数分箱RevolvingUtilizationOfUnsecuredLines时报错You can drop duplicate edges by setting the 'duplicates' kwarg
# 所以先回来删除重复值。删除后发现没有解决问题,真正解决问题是在qcut()函数中没有设置duplicates参数为“drop”(不能设置为“raise”)
data=data.drop_duplicates(subset=None,keep='first',inplace=False)
data.shape
(119703, 11)
# 针对我们将使用最优分段对于数据集中的RevolvingUtilizationOfUnsecuredLines、age、DebtRatio和MonthlyIncome进行分类。
mono_bin(data.SeriousDlqin2yrs,data.RevolvingUtilizationOfUnsecuredLines)
============================================================
        min           max    sum  total      rate       woe
0  0.000000      0.035034  29333  29926  0.980184  1.298275
1  0.035037      0.176771  29205  29926  0.975907  1.098457
2  0.176777      0.577036  28305  29925  0.945865  0.257613
3  0.577040  50708.000000  24607  29926  0.822262 -1.071254
minmaxsumtotalratewoe
00.0000000.03503429333299260.9801841.298275
10.0350370.17677129205299260.9759071.098457
20.1767770.57703628305299250.9458650.257613
30.57704050708.00000024607299260.822262-1.071254
mono_bin(data.SeriousDlqin2yrs,data.age)
============================================================
    min  max   sum  total      rate       woe
0    21   30  7913   8885  0.890602 -0.506093
1    31   34  6640   7383  0.899363 -0.412828
2    35   38  7594   8386  0.905557 -0.342447
3    39   41  7131   7849  0.908523 -0.307262
4    42   43  4890   5362  0.911973 -0.265031
5    44   46  8163   8868  0.920501 -0.153830
6    47   48  5776   6274  0.920625 -0.152133
7    49   51  8545   9280  0.920797 -0.149768
8    52   53  5454   5901  0.924250 -0.101453
9    54   56  7922   8463  0.936075  0.080980
10   57   59  7517   7946  0.946011  0.260466
11   60   61  4942   5200  0.950385  0.349567
12   62   64  7464   7776  0.959877  0.571844
13   65   68  6968   7212  0.966167  0.748916
14   69   75  7911   8141  0.971748  0.934931
15   76  103  6620   6777  0.976833  1.138606
minmaxsumtotalratewoe
02130791388850.890602-0.506093
13134664073830.899363-0.412828
23538759483860.905557-0.342447
33941713178490.908523-0.307262
44243489053620.911973-0.265031
54446816388680.920501-0.153830
64748577662740.920625-0.152133
74951854592800.920797-0.149768
85253545459010.924250-0.101453
95456792284630.9360750.080980
105759751779460.9460110.260466
116061494252000.9503850.349567
126264746477760.9598770.571844
136568696872120.9661670.748916
146975791181410.9717480.934931
1576103662067770.9768331.138606
mono_bin(data.SeriousDlqin2yrs,data.MonthlyIncome)
============================================================
      min      max    sum  total      rate       woe
0     0.0   3400.0  27355  30073  0.909620 -0.293996
1  3401.0   5400.0  27655  30008  0.921588 -0.138884
2  5401.0   8200.0  27925  29725  0.939445  0.138736
3  8201.0  49750.0  28515  29897  0.953775  0.423899
minmaxsumtotalratewoe
00.03400.027355300730.909620-0.293996
13401.05400.027655300080.921588-0.138884
25401.08200.027925297250.9394450.138736
38201.049750.028515298970.9537750.423899
  • 17
    点赞
  • 47
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值