数据预处理的作用在于在之后的训练和预测中能够将我们的预测划分在某个区间内,并不要求其准确到具体,否则预测的准确率将会极低,预处理的方法不仅限于文本处理,在图像处理中,这种理念同样适用。
介绍在python中如何进行连续数据离散化,用到panda.cut函数,分类数为4。
import pandas as pd
import numpy as np
bins = [0, 5, 10, 20, 80]
df = pd.read_excel("路径",encoding='gbk')
print(pd.cut(df['!!! bins))
df['Categories'] = pd.cut(df['!!!'], bins)
print(df)#分箱
df['Categories'] = pd.cut(df['!!!'], bins, labels=['0', '1', '2', '3'])
print(df)#0-3表示4类
print(df['Categories'].values)#打印数值
df.to_excel("路径",index = False)#保存操作
print(df)