案例二 预处理部分地区信息

案例需求

  1. 检查重复并且处理重复数据
  2. 检查缺失值
  3. 检查异常值
  4. 合并两个文件

数据准备

   “北京地区信息.csv”   “天津地区信息.csv”

解答:(1)

  • 读文件
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
bj=pd.read_csv("地址",encoding="gbk")
bj
tj=pd.read_csv("地址",encoding="gbk")
tj
  • 检查重复数据,用到了tj.duplicated(),值为true,则说明在该行之前,有一行与该行完全相同

  •  删除重复的那一行,bj.drop_duplicates()

解答:(2)

  • 检测缺失值,isnull()

  • 查看缺失值,df.info()
  • 一般用该列的平均值填充,fillna(value)
values=tj[""].mean()

解答:(3) 一般用箱线图来检测异常值

直接默写用于正常表示数字的指令

plt.rcParams['font.family']=['SimHei']
plt.rcParams['axes.unicode_minus']=False
  • tj.boxplot(),bj.boxplot(),plt.show()#在本地显示图片

 

 解答:(4)

merge(pd.merge(tj,bj,how="outer",on=["","","","",""])

 

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值