Pandas分箱/离散化cut()与qcut()的区别

对许

已于 2024-05-28 21:54:17 修改

阅读量1.6k

点赞数 15

分类专栏： # Python # 人工智能与机器学习 # 数据分析文章标签： python 机器学习

于 2024-04-07 15:20:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_55629186/article/details/137463625

版权

cut与qcut区别

Pandas提供了智能剪贴功能：pd.cut()与pd.qcut()，它们通常用于更方便直观地处理关系型或标签型数据，将数据进行分箱/离散化

1、pd.cut()

我们可以通过两种方式使用cut()函数：直接指定bin的数量，让Pandas为我们计算等大小的bin，或者我们可以按照自己的意愿手动指定bin的边缘

在cut()函数中，bin边缘的间距大小是相等的，每个bin或箱中的元素数量不均匀。例如，如果对年龄进行分箱，0-1岁是婴儿，1-12岁是孩子，12-18岁是青少年，18-60岁是成年人，60岁以上是老年人。所以我们可以设置：

bins=[0, 1, 12, 18, 60, 140]
labels=['infant', 'kid', 'teenager', 'grownup', 'senior citizen']

cut()的API如下：

pd.cut(x,bins,right,labels,retbins,precision,include_lowest,duplicates,ordered)

其参数及说明如下：

x：需要进行分箱的数据，1D数组或系列类型，如果数据存在NaN则报错
bins：分箱的边界，如果是单个整数，则表示基于数据中的最小值和最大值生成等间距间隔；也可以是自定义边界值的列表或数组
right：是否包含最右边的数值，默认为True（右闭）
labels：分箱的标签，长度保持与分箱数一致
retbins：是否显示分箱的边界值，默认为False。当bins为整数时设置True可以显示边界值
precision：分箱边界的精度，默认3位小数
include_lowest：是否包含最左边的数值，默认为False（左开）
duplicates：默认为raise，如果分箱的边界不唯一，则引发ValueError；指定drop则去重
ordered：标签是否有序，默认为True，分类结果将被排序

以下是一个使用示例：

import pandas as pd
import numpy as np

# 数据准备
years = [2024, 2023,<

最低0.47元/天解锁文章

关注

15
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
Pandas分箱/离散化cut()与qcut()的区别

例如，如果对年龄进行分箱，0-1岁是婴儿，1-12岁是孩子，12-18岁是青少年，18-60岁是成年人，60岁以上是老年人。默认情况下，它被设置为False，因此，当Pandas看到我们传递的列表时，它将把2008年排除在计算之外。时，我们告诉Pandas将数据列切成5个相等的量级，即0-20%，20-40%，40-60%，60-80%和80-100%桶/箱。可以看到，分箱的边缘是不等宽的，因为它要容纳每个桶1/3的值，因此它要自己计算每个箱子的宽度来实现这一目标。边缘的间距大小是相等的，每个。
复制链接

扫一扫

专栏目录

对许 CSDN认证博客专家 CSDN认证企业博客

码龄3年

214: 原创

500: 周排名

7370: 总排名

26万+: 访问

: 等级

3809: 积分

1万+: 粉丝

1624: 获赞

28: 评论

2249: 收藏

私信

关注

热门文章

分类专栏

最新评论

Spark中的JOIN机制
穷苦书生_万事愁: 此篇博主的文章对我带来了全新的认识，对Spark中的JOIN机制有了更深入的了解。博主的描述十分详细，让我感受到了博主在这个领域的专业知识和丰富经验。期待博主能够继续分享更多有价值的文章，并且希望能够得到博主的指导，一同进步成长。非常感谢博主的付出和支持！
如何有效的禁止Google Chrome自动更新？
Q_yt: 但我有次开飞机访问github时，发现chrome的更新又正常了，又自动更新了。关闭飞机后，才正常禁用
如何有效的禁止Google Chrome自动更新？
Q_yt: 按博主的方法执行后，本地可以禁用了。
深入理解对象存储（OSD）
问老大: 写的好棒！非常清晰，看完之后感觉了解的更清楚了！
Scikit-Learn朴素贝叶斯
ha_lydms: 优质好文支持支持,优质好文支持支持

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。