动手学数据分析-Task02-数据清洗及特征处理

最新推荐文章于 2024-07-13 14:59:28 发布

不畏凉风

最新推荐文章于 2024-07-13 14:59:28 发布

阅读量486

点赞数

文章标签：数据分析

本文链接：https://blog.csdn.net/weixin_45787526/article/details/121412411

版权

缺失值观察，确定特征缺失值个数

# 方法一
df.info()
# 方法二
df.isnull().sum()

处理缺失值时，可以将缺失值的地方设置为0

# 方法一
df[df['Age']==None]=0
# 方法二
df[df['Age'] == np.nan] = 0
# 方法三
df[df['Age'].isnull()] = 0 
# 方法四
df.fillna(0)

也可以将有缺失值的行删除

df.dropna()

查看重复值

df[df.duplicated()]

将整行有重复值的清理

df = df.drop_duplicates()

一般文本分为数值型和文本型（含有文字的）。
数值型特征一般可以直接用于模型的训练，但有时候为了模型的稳定性及鲁棒性会对连续变量进行离散化。文本型特征往往需要转换成数值型特征才能用于建模分析。

分箱（离散化）处理

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注