scikit-learn处理输入数据缺失值的类：Imputer

最新推荐文章于 2023-10-30 11:43:19 发布

佛系调参

最新推荐文章于 2023-10-30 11:43:19 发布

阅读量3.1k

点赞数 1

分类专栏： Python 机器学习

本文链接：https://blog.csdn.net/yzy__zju/article/details/84258088

版权

Python 同时被 2 个专栏收录

75 篇文章 1 订阅

订阅专栏

机器学习

9 篇文章 0 订阅

订阅专栏

可选参数

strategy: 'mean'(默认的)， ‘median’中位数，‘most_frequent’出现频率最大的数
axis: 0(默认)， 1
copy: True(默认)， False

输出

numpy数组，之后可转化为DataFrame形式

属性：

Imputer.statistics_可以查看每列的均值/中位数

特别说明：最好将imputer应用于整个数据集。因为虽然现在可能只有某一个属性存在缺失值，但是在新的数据中（如测试集）可能其他的属性也存在缺失值

from sklearn.preprocessing import Imputer
imputer=Imputer(strategy='median') #将每列属性的缺失值替换为中位数
imputer.fit(x_train)
X=imputer.transform(x_train) #转换结果X是一个numpy数组
x_train=pd.DataFrame(X,columns=x_train.columns) #将numpy数组转化为dataframe

print(imputer.statistics_) #查看每个属性的中位数

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

佛系调参

关注关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
scikit-learn处理输入数据缺失值的类：Imputer

可选参数strategy: 'mean'(默认的)， ‘median’中位数，‘most_frequent’出现频率最大的数 axis: 0(默认)， 1 copy: True(默认)， False输出numpy数组，之后可转化为DataFrame形式属性： Imputer.statistics_可以查看每列的均值/中位数特别说明：最好将imputer应用于整个数据...
复制链接

扫一扫