连续性数据的离散化 pandas包中的cut()函数
pandas.cut( x,bins,right=Ture,labels=None,retbins=Flase,precision=3)
参数 | 说明 |
x | 接受的数据 |
bins | 划分的区间 例如:成绩[60,70,80 ,90] |
right | 是否右侧为闭区间 默认值为Ture 表示为闭区间 |
labels | 离散后的标签 |
retbins | 是否范围区间标签 |
precision | 接收int,显示标签的精度 默认为三 |
#导入包
import pandas as pd
#读取文件
data=pd.read_csv("chengji.csv")
查看数据
print(data)
针对c 进行分箱,成绩分类
data['分类'] = pd.cut(data['C'],
bins = [60, 70, 80, 90, 100] ,
labels = ['通过', '良好', '中等', '优秀'] )
print(data[['C', '分类']])