pandas处理缺失值的10种策略_pandas库缺失值代替-CSDN博客

本文链接：https://blog.csdn.net/wenjie20070212/article/details/139128789

一、引言

在数据分析的世界里，数据清洗是一项至关重要的前期工作。它犹如给食材去皮、洗净、切片，让它们成为一道道美味佳肴的原材料。对于Python初学者来说，掌握如何使用强大的Pandas库处理数据中的缺失值是迈向数据清洗高手的第一步。本文将带领您探索使用Pandas处理缺失值的10种策略，让您在实战中游刃有余。

二、准备工作：导入Pandas库与加载示例数据集

首先，确保已经安装了Pandas库，可通过以下命令进行安装：

pip install pandas

然后，我们创建一个简单的示例数据集example_data.csv，其中包含一些故意引入的缺失值（用NaN表示），以方便演示各种处理策略。以下代码导入Pandas库并加载数据集：

import pandas as pd

# 加载示例数据集
df = pd.read_csv("example_data.csv")
print(df)

输出结果类似如下：

   A    B    C    D
0  1  2.0  NaN  foo
1  2  NaN  7.0  bar
2  3  4.0  5.0  baz
3  4  NaN  6.0  qux
4  5  6.0  NaN  quux

接下来，我们将逐一介绍并演示10种处理缺失值的策略。

三、策略1：直接删除含有缺失值的行

有时，当数据集中存在大量缺失值，且对分析影响较小时，可以选择直接删除含有缺失值的行。Pandas的dropna()方法可以轻松实现这一操作：

# 删除含有缺失值的行
df_cleaned = df.dropna()
print(df_cleaned)

注意：删除数据需谨慎，确保缺失值的分布不会严重影响分析结果。

四、策略2：删除含有缺失值的列

如果某一列的缺失值过多，可能对该列的分析价值产生较大影响，这时可以考虑删除整列。只需将dropna()方法的axis参数设置为1（代表列）：

# 删除含有缺失值的列
df_cleaned = df.dropna(axis=1)
print(df_cleaned)

五、策略3：填充缺失值（替换为固定值）

若希望将所有缺失值替换为某个固定的值（如0、-1或特定字符串），使用fillna()方法即可：

# 将所有缺失值替换为0
df_filled = df.</