数据分箱之pd.cut()

最新推荐文章于 2024-06-10 16:05:14 发布

弈753

最新推荐文章于 2024-06-10 16:05:14 发布

阅读量1.7k

点赞数 1

文章标签：数据挖掘

原文链接：https://zhuanlan.zhihu.com/p/143589729

版权

相信很多进行数据处理工作的小伙伴都遇到过这种需求，比如已经有了各个销售员的销售业绩，现在需要给各个销售业绩进行一个分档，诸如未完成任务，完成任务，超额完成任务等。要完成分档需要先对销售业绩的数值进行判断，然后再根据判断的结果进行一个分类，那么大家都是怎样进行分类的呢？

实际上，上述需求是要对连续型的数值进行分箱操作，实现的方法有N种，但是效率有高有低，这里我们介绍一种效率比较高而且也容易理解的方法，运用DataFrame种的一个函数，叫做pd.cut()实现分箱操作。

pd.cut()参数介绍

先来看一下这个函数都包含有哪些参数，主要参数的含义与作用都是什么？

pd.cut( x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise', )

x ：一维数组（对应前边例子中提到的销售业绩）

bins ：整数，标量序列或者间隔索引，是进行分组的依据，

如果填入整数n，则表示将x中的数值分成等宽的n份（即每一组内的最大值与最小值之差约相等）；
如果是标量序列，序列中的数值表示用来分档的分界值
如果是间隔索引，“ bins”的间隔索引必须不重叠

right ：布尔值，默认为True表示包含最右侧的数值

当“ right = True”（默认值）时，则“ bins”=[1、2、3、4]表示（1,2]，（2,3],（3,4]
当bins是一个间隔索引时，该参数被忽略。

labels : 数组或布尔值，可选.指定分箱的标签

如果是数组，长度要与分箱个数一致，比如“ bins”=[1、2、3、4]表示（1,2]，（2,3],（3,4]一共3个区间，则labels的长度也就是标签的个数也要是3
如果为False，则仅返回分箱的整数指示符，即x中的数据在第几个箱子里
当bins是间隔索引时，将忽略此参数

retbins：是否显示分箱的分界值。默认为False，当bins取整数时可以设置retbins=True以显示分界值，得到划分后的区间

precision：整数，默认3，存储和显示分箱标签的精度。

include_lowest：布尔值，表示区间的左边是开还是闭，默认为false，也就是不包含区间左边。

duplicates：如果分箱临界值不唯一，则引发ValueError或丢弃非唯一

ok，所有参数的含义与作用就是这些了，纯文字解释怎么都不如代码跑一遍来的直观，我们在代码中实现一下再结合上述文字解释就很容易理解了。而且并不是所有参数都是常用的，有些参数很少用到！

pd.cut()代码示例

先来看一下数据源

df_f = pd.read_excel(r"D:\data\football\球队排名比分2019.xlsx")
df_f

读入的数据是2019年英超各球队的积分：

进行分箱

bins取整数，即指定箱子个数

我们对积分数据进行分箱，先来最简单的：

pd.cut(df_f.积分,bins=3,labels=["低","中","高"]) #分成3箱并指定标签

分箱结果：

0     高
1     高
2     中
3     中
4     中
5     中
6     中
7     中
8     低
9     低
10    低
11    低
12    低
13    低
14    低
15    低
16    低
17    低
18    低
19    低
Name: 积分, dtype: category
Categories (3, object): [低 < 中 < 高]

直接指定箱子个数，分成等宽的3份，感兴趣的同学可以求一下每个箱子内的极值，应该是约相等的。

前边有提到，这种分箱方式看不到分界值是多少，但是可以通过参数进行设置显示分界值：

pd.cut(df_f.积分,3,labels=["低","中","高"],retbins=True) #retbins=True显示分界值

分箱结果：

(0     高
 1     高
 2     中
 3     中
 4     中
 5     中
 6     中
 7     中
 8     低
 9     低
 10    低
 11    低
 12    低
 13    低
 14    低
 15    低
 16    低
 17    低
 18    低
 19    低
 Name: 积分, dtype: category
 Categories (3, object): [低 < 中 < 高],
 array([13.953     , 29.66666667, 45.33333333, 61.        ]))

是不是能明显的看出和上一次代码结果相比多了一个 array([13.953 , 29.66666667, 45.33333333, 61. ])，这就是分箱的分界值啦，我们就能知道分箱的时候是以那个数值作为分界点进行分箱的了。

如果不指定每个箱子的标签是什么

pd.cut(df_f.积分,3,labels=False) #只显示数据位于第几个箱子里

分享结果：

0     2
1     2
2     1
3     1
4     1
5     1
6     1
7     1
8     0
9     0
10    0
11    0
12    0
13    0
14    0
15    0
16    0
17    0
18    0
19    0
Name: 积分, dtype: int64

只显示每个位置上的数值属于第几个箱子

bins取标量序列

pd.cut(df_f.积分,[0,30,40,70],labels=["低","中","高"]) #默认right = True

指定分箱时候的分界点，即0~30，30~40，40~70一共三个箱体，有默认的right = True，即分箱的时候，30包含在0~30的箱体中，40包含在30~40的箱体中，70包含在40~70的箱体中，我们来看下结果，是不是和描述一致：

这里红框部分是要和下边更改参数right后的结果进行对比的，我们来看下：

pd.cut(df_f.积分,[0,30,40,70],labels=["低","中","高"],right=False)

分箱结果：

能够看到，right参数设置对分箱结果的影响。为什么会有这样的影响呢？我们回顾下我们的原数据：

能够发现分享发生变化的数值正好是我们分箱的临界值，可以通过参数进行设置临界值被划分到哪一边的箱体中。

如果需要将分箱的结果展示在原数据框中，直接赋值一列进去就可以了：

df_f.loc[:,"积分等级"]=pd.cut(df_f.积分,[0,30,40,70],labels=["低","中","高"],right=False)
df_f

结果如下：

对于pd.cut()函数常用的参数设置就是这些了，小伙伴们还有哪些疑问或者新发现欢迎一起讨论啊！