机器学习数据预处理之缺失值：均值填充

最新推荐文章于 2024-07-16 09:20:29 发布

Data+Science+Insight

最新推荐文章于 2024-07-16 09:20:29 发布

阅读量2.7k

点赞数

分类专栏：数据科学从0到1 文章标签：数据挖掘机器学习深度学习自然语言处理人工智能

本文链接：https://blog.csdn.net/zhongkeyuanchongqing/article/details/119835454

版权

数据科学从0到1 专栏收录该内容

1640 篇文章 645 订阅 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

数据预处理对于机器学习至关重要，尤其是处理缺失值。当缺失值较多时，直接删除或手工处理并不理想。本文介绍了如何使用平均数（均值）来填充缺失值，通过`fillna`函数在数据集中应用该方法，以减少信息损失并避免分析偏差。同时提到了数据集中趋势的测量指标——均值和标准差，并提供了相关的参考资料。

摘要由CSDN通过智能技术生成

机器学习数据预处理之缺失值：均值填充

garbage in, garbage out.

没有高质量的数据，就没有高质量的数据挖掘结果，数据值缺失是数据分析中经常遇到的问题之一。当缺失比例很小时，可直接对缺失记录进行舍弃或进行手工处理。但在实际数据中，往往缺失数据占有相当的比重。这时如果手工处理非常低效，如果舍弃缺失记录，则会丢失大量信息，使不完全观测数据与完全观测数据间产生系统差异，对这样的数据进行分析，你很可能会得出错误的结论。

平均数，统计学术语，是表示一组数据集中趋势的量数，是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。解答平均数应用题的关键在于确定“总数量”以及和总数量对应的总份数。
在统计工作中，平均数（均值）和标准差是描述数据资料集中趋势和离散程度的两个最重要的测度值。

使用统计均值进行缺失值的填充；

使用fillna函数

df.fillna(df.mean())；

# 仿真数据集；

import numpy as np
import pandas as pd

# 构造数据
def dataset():
    col1 = [1, 2, 3, 4, 5, 6, 7, 8, 9,10]
    col2 = [3, 1, 7, np

了解本专栏

超级会员免费看

Data+Science+Insight

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录