数据清洗练习

本文将带你深入了解数据清洗过程,从识别缺失值、异常值到处理重复数据,通过实例讲解如何运用Python库如Pandas进行数据预处理,提升数据质量。
摘要由CSDN通过智能技术生成
import pandas as pd
import numpy as np
##1.检测处理重复值:

right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                      'key2': ['K0', 'K0', 'K0', 'K0'],
                         'C': [1, 1, 2, 3],
                         'D': [2, 2, 4, 6],
                         'E': [1, 1, 2, 3]})

data_drop = right['key1'].drop_duplicates(keep=False)

# keep:保留第几个重复值,默认为first,last,false:都不保留
print(len(data_drop))

# 表去重:===>>去行
shape_det = right.drop_duplicates(subset=['key1','key2'])
# print(shape_det)

# 特征重复:==>>去列(计算相似度)
# corr_det = right[['C','D','E']].corr(method='kendall')  ##spearman
# print(corr_det)

detail = pd.read_excel('meal_order_detail.xlsx',sheet_name=0)
# 1.相似度矩阵
corr_det = detail[['counts','amounts','
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python数据分析练习是指通过使用Python编程语言来处理和分析数据的实践活动。这些练习旨在让学习者掌握如何使用Python的数据分析库来处理和分析实际的数据集。 在Python数据分析练习中,学习者首先需要了解如何读取和导入数据集。Python有很多库可以用于读取和处理各种格式的数据,例如CSV、Excel、JSON等。学习者需要学习如何使用这些库来加载和处理自己感兴趣的数据。 然后,学习者需要学习如何清洗和预处理数据数据通常存在一些缺失值、异常值和重复值,需要使用Python库来清洗和处理这些问题。此外,学习者还需要了解如何对数据进行规范化和标准化,以便于后续的分析工作。 接下来,学习者可以学习如何使用Python进行数据分析和可视化。Python有很多数据分析库,例如Pandas、NumPy和Matplotlib等。学习者需要学习如何使用这些库来计算统计指标、绘制图表和进行数据挖掘。学习者可以使用这些库来回答自己感兴趣的问题,例如数据的趋势、相关性和模式等。 最后,学习者需要学习如何进行数据报告和沟通。数据分析不仅仅是处理数据,还需要将结果以清晰和易懂的方式传达给其他人。学习者可以使用Python的文档编写和可视化库来创建数据报告和可视化演示,以向他人展示分析结果。 总之,Python数据分析练习是通过使用Python编程语言来处理和分析数据的实践活动。学习者需要学习如何读取和导入数据、清洗和预处理数据、使用数据分析和可视化库进行数据分析,以及进行数据报告和沟通。这些练习可以帮助学习者掌握Python数据分析的技能,为实际问题提供解决方案。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值