运用python numpy、pandas
步骤
数据读取
df = pd.read_csv(‘.csv’)
数据了解
数据查看
df.info()
查看前几行
df.head(2)
统计性描述
df.describe()
异常值查找
1.根据实际场景找出不符合逻辑的数据,比如商品数据中,优惠<价格,所有优惠>价格的都是异常值
2.根据统计结果,3倍标准差之外的数据判定为异常值
3.重复值查找 df.duplicated() 删除重复值 df.drop_duplicates()
缺失值处理
删除
df.dropna()
查找
df.isnull()
df.某一列.isnull()
填补
df.fillna(填补的值)
清洗方法总结
异常值处理
删除异常记录
作为缺失值
平均法修正、盖帽法修正
不处理:作为业务分析对象
缺失值处理
缺失值删除
均值填充
就近填充
模型填充,如随机森林
文本处理
删除空格
str.split()
文字抓取
df.某列.str.extract(’ (.+) ‘,expand=False) 用正则表达式
\d为数字 .为. ()内为要提取的信息
字符串替换
str.replace(’,‘,’')