数据清洗可能遇到的问题及解决方法
遇到的问题 | 解决的方法 |
部分缺失:nan | 检测缺失数据isnull(),然后删除dropna()或者填充fillna() |
数据存在重复值:111,111,111 | #检测重复数据 #删除重复值 |
部分数据存在异常 | 删除 |
数据类型不统一 | 数据类型转换(两种方式都行) data['yuanjia']=data.yuanjia.map(lambda x:x.replace('万','')).astype('float64') |
数据同时包含数值和字符串:16万 | 字符串处理 data['shoujia']=data.shoujia.map(lambda x:float(x.replace('万',''))) |
少部分数据不利于分析 | 数据替换 |