案例需求
- 检查重复并且处理重复数据
- 检查缺失值
- 检查异常值
- 合并两个文件
数据准备
“北京地区信息.csv” “天津地区信息.csv”
解答:(1)
- 读文件
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
bj=pd.read_csv("地址",encoding="gbk")
bj
tj=pd.read_csv("地址",encoding="gbk")
tj
- 检查重复数据,用到了tj.duplicated(),值为true,则说明在该行之前,有一行与该行完全相同
- 删除重复的那一行,bj.drop_duplicates()
解答:(2)
- 检测缺失值,isnull()
- 查看缺失值,df.info()
- 一般用该列的平均值填充,fillna(value)
values=tj[""].mean()
解答:(3) 一般用箱线图来检测异常值
直接默写用于正常表示数字的指令
plt.rcParams['font.family']=['SimHei']
plt.rcParams['axes.unicode_minus']=False
- tj.boxplot(),bj.boxplot(),plt.show()#在本地显示图片
解答:(4)
merge(pd.merge(tj,bj,how="outer",on=["","","","",""])