pandas 数据分析1

上一篇给大家介绍了使用pandas 读取Excel,CSV格式的数据。

今天就给大家接一下数据清洗,在数据挖掘项目中数据清洗大要占到整个项目周期的60%的

时间。并且数据清洗的效果很大程度上影响着模型的效果,因此数据清洗数分析和数据挖掘中占有的地位不言而喻。
话不多,开始讲数据清洗。
首先什么是数据清洗,数据清洗就是根据实际的项目需要,对要用到的数据进行清理。
数据清洗主要进行的处理
一:对数据中的缺失值进行处理。一般有两种方法,(1)直接删除(2)对缺失值进行补充。
二:对异常值得处理。异常值的处理和确实值得处理基本上差不多,进行删除或者替换。
三:数据编码。就是对类别,或者名义变量的值转化为何是的数值,以便后期进行计算。
数据清洗的工具很多,但是pandas 是运用很多的数据清洗的工具,接下来介绍使用pandas 进行
数据清洗。

#读取数据
score_df=pd.read_csv("./学生成绩单.csv",index_col="序号",chunksize=10000,sep=",",skiprows=[1],encoding="utf-8",error_bad_lines=False)
'---------------------进行数据清洗--------------------'
#处理删除含有控制的行
socre_df=score_df.dropna()

但是只有少数情况下我们是可以直接删除含有空缺值的样本,大多数情况是要对空缺进行填补的。
这里我只讲使用常见的统计量进行填补。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值