在上班时间,抽空玩了一下Python,对于数据清洗一些经常用到的操作,写了个笔记,也方便自己以后查看,哈哈,或者说是只想写点东西玩玩,虽然对很多人来说,我这个太低级了。。。。。
1、将两张表拼接在一起
◆pd.merge(表1,表2,left_on='左属性',right_on='右属性',how='outer')
#这里pd要先导入pandas包;how的值,left左连接,right右连接,outer外连接,inner内连接
◆pd.concat([表1,表2],axis=0)
#这里的拼接是竖着直接拼接,若axis=1则是横着拼接
2、查看缺失值情况
◆查看表里各列缺失值的个数
表.apply(lambda x:sum(x.isnull()),axis=0)
◆查看某一属性列缺失值的详细情况
x=表[pd.isnull(表['属性名'])]
len(x)#用来查看缺失值个数
3、缺失值的填充
◆表['属性名']=表['属性名'].fillna(值)
#一般来说,填充用均值、众数等,或者直接删除
4、值.strip('acb')、值.replace('abc','123')
◆strip是首尾两端开始去掉在'acb大小'里的部分,即(a、b、c、大、小)都要去掉,直至遇到不在里面的
例如:a='bcda大中小大a',则a.strip('acb大小')结果是 'da大中'
◆replace是一整块替换,将值里面'abc'整块替换为'123',必须是'abc'一整块的才会替换
5、删除某一列<