Python数据预处理-20220301

数据清洗过程记录 3.1

  • 首先调试
%pwd
%cd "F:\\python"
%run init.py #自己的包
  • 2导入数据
#dta
f=r'temperature.dta'
tem=pd.read_stata(f)
#csv、xlsx
land_1 = pd.read_csv("land_1.csv")  

这里数据过大,思路:拆分两个dta导入py,然后concat

x=pd.concat([x1,x2],axis=0) #=0是行之间的拼接
  • 3查看数据类型\结构
x.columns\x.dtypes\x.iloc[:,-5:-1]\x.drop("name",axis=1)
badrate=data.apply(lambda x:sum(x.isnull())/len(x))#缺失率
data.isnull().sum()
data.rename(columns={'oldname':'newname'},inplace=True)#重命名

如果是面板数据,from datetime import datetime

x['日期'] = pd.to_datetime(x['日期'])
all_data=pd.merge(data, tem, on=['日期', '市代码'])
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值