数据清洗过程记录 3.1
- 首先调试
%pwd
%cd "F:\\python"
%run init.py #自己的包
- 2导入数据
#dta
f=r'temperature.dta'
tem=pd.read_stata(f)
#csv、xlsx
land_1 = pd.read_csv("land_1.csv")
这里数据过大,思路:拆分两个dta导入py,然后concat
x=pd.concat([x1,x2],axis=0) #=0是行之间的拼接
- 3查看数据类型\结构
x.columns\x.dtypes\x.iloc[:,-5:-1]\x.drop("name",axis=1)
badrate=data.apply(lambda x:sum(x.isnull())/len(x))#缺失率
data.isnull().sum()
data.rename(columns={'oldname':'newname'},inplace=True)#重命名
如果是面板数据,from datetime import datetime
x['日期'] = pd.to_datetime(x['日期'])
all_data=pd.merge(data, tem, on=['日期', '市代码'])