pandas数据清洗：缺失值、重复值和异常值的处理方法

小宇python

于 2024-08-05 13:31:45 发布

阅读量171

点赞数 7

分类专栏：数据分析 ai 爬虫文章标签： pandas

本文链接：https://blog.csdn.net/weixin_43822401/article/details/140924619

版权

爬虫同时被 3 个专栏收录

28 篇文章 0 订阅

订阅专栏

24 篇文章 0 订阅

订阅专栏

数据分析

9 篇文章 0 订阅

订阅专栏

处理重复值时，平衡数据完整性和数据质量是一项挑战，因为不当的处理可能会导致重要信息的丢失或错误分析。以下是一些处理重复值时可以考虑的策略：

1. 识别重复值

首先，使用 duplicated() 或 DataFrame.duplicated() 方法来识别数据中的重复行。

2. 分析重复数据

在删除重复值之前，分析重复数据的原因和上下文。了解这些重复是如何产生的，是否是数据录入错误，或者是有意为之的重复记录。

3. 保留关键信息

如果重复数据中包含不同的信息，考虑只删除重复的记录，同时保留关键的、不重复的信息。

4. 使用条件删除

使用 drop_duplicates() 方法时，可以结合条件语句来决定哪些记录应该被删除。例如，如果某些列的组合是唯一的，可以基于这些列来删除重复项。

5. 保留原始数据

在某些情况下，保留原始数据的副本可能是有益的，这样在删除重复数据后，如果需要，可以重新检查或恢复数据。

6. 更新数据源

如果可能，更新数据源以防止未来的重复。这可能涉及改进数据收集过程或使用更严格的数据验证规则。

7. 使用数据哈希

对于大型数据集，使用数据哈希技术来识别和删除重复项，这可以提高效率。

8. 用户定义的合并规则

在某些情况下，可能需要根据特定业务逻辑合并重复记录，而不是简单地删除它们。

9. 记录处理过程

记录数据处理的每个步骤，包括删除了哪些数据以及为什么删除，以确保数据清洗过程的透明度和可追溯性。

10. 验证和测试

在处理完重复值后，验证数据的一致性和准确性。进行测试以确保数据清洗没有引入新的错误。

示例代码

import pandas as pd

# 示例 DataFrame
df = pd.DataFrame({
    'A': [1, 2, 2, 3, 4],
    'B': ['a', 'b', 'b', 'c', 'd'],
    'C': [1, 2, 2, 3, 4]
})

# 识别重复值
print(df.duplicated())

# 删除重复值，保留第一次出现的记录
df_cleaned = df.drop_duplicates()

# 根据特定列的组合删除重复项
df_cleaned = df.drop_duplicates(subset=['A', 'B'])

# 保留所有重复项，但进行分析
duplicates = df[df.duplicated(keep=False)]
print(duplicates)