数据清洗
通常从Excel,csv,或数据库中获取的数据并不是非常完美,有可能还有很多的重复,或者异常,甚至会有缺失。还存在格式不统一等等各种问题,所以就需要将得到的数据进行清洗
缺失值
对于DataFrame中的缺失值,使用isnull
或isna
方法,可以找出表中的缺失值,并以布尔形式显示
删除缺失值
如果想要将这些缺失值删除。可以使用DataFrame对象的dropna
方法,它会自动找到缺失值并将其全部删除,该方法中的axis参数可以指定沿着0轴还是1轴删除(行为0轴,列为1轴)
在DataFrame对象的很多方法都有一个名为inplace的参数,该参数的默认值为False,表示本次操作会返回修改后的DataFrame对象,但并不会改变原来的DataFrame对象
对空值进行填充
对应的方法是fillna
,填充的的时候可以指定具体的值(通过value
参数指定)
查找重复数据
当表中有重复数据的时候,通过DataFrame对象的duplicated
方法判断是否存在重复值,该方法默认检索行是否重复,也可以指定检索的行或列。同样,结果是以布尔值的方式返回。
删除重复数据
如果要删除重复数据,可以使用drop_duplicates
方法,通过keep
参数可以控制在遇到重复值时,保留第一项还是最后一项,或者删除所有重复值