数分——数据清洗

运用python numpy、pandas

步骤

数据读取

df = pd.read_csv(‘.csv’)

数据了解

数据查看
df.info()
查看前几行
df.head(2)
统计性描述
df.describe()

异常值查找

1.根据实际场景找出不符合逻辑的数据,比如商品数据中,优惠<价格,所有优惠>价格的都是异常值
2.根据统计结果,3倍标准差之外的数据判定为异常值
3.重复值查找 df.duplicated() 删除重复值 df.drop_duplicates()

缺失值处理

删除
df.dropna()
查找
df.isnull()
df.某一列.isnull()
填补
df.fillna(填补的值)

清洗方法总结

异常值处理

删除异常记录
作为缺失值
平均法修正、盖帽法修正
不处理:作为业务分析对象

缺失值处理

缺失值删除
均值填充
就近填充
模型填充,如随机森林

文本处理

删除空格
str.split()
文字抓取
df.某列.str.extract(’ (.+) ‘,expand=False) 用正则表达式
\d为数字 .为. ()内为要提取的信息
字符串替换
str.replace(’,‘,’')

时间格式处理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值