..—-CSDN博客

原创 stata操作汇总0330

ivivreghdfe y (x= z) $cl , absorb ( ) cl() 日期格式gen month=month(date)gen year =year(date)gen monthdate=ym(year,month)format monthdate %tmbys使用bys city monthdate: egen mtem=mean(TEM)下载ssc install 分类变量生成数值型encode 省,gen(prov)...

2022-03-30 22:10:54 721

原创 stata数据处理0304

stata基本处理首先是非常多的csv文件 3g多的数据如何合并为一个win+r cmd d： +cd+路径随后 copy*.csv all.csv 就可以啦stata str转number help destring我发现 destring ，replace 可以全部变量都换成long…分类变量如何放入回归？1)通过 code tripType 显示此变量的类型，如下tripTypetype: string (str8)tabulation: Freq.

2022-03-16 14:21:52 3995 1

原创 python数据清洗 0302

python数据清洗第二partQ1 str分割昨天发现merge无法匹配，找到原因发现id是不对应的df1的id是四位数；df2的id是六位数后两位是区号tem["city"]=tem["city"].astype(str)tem["city"]=tem["市代码"].str[0:4]这样就解决了id_code 不匹配的问题Q2 无法修改为datetime格式原因：原始数据date 超过pd.timestamp.max,eg 3099-12-1df0.loc[df

2022-03-02 21:10:46 452

原创 Python数据预处理-20220301

数据清洗过程记录 3.1首先调试%pwd%cd "F:\\python"%run init.py #自己的包2导入数据#dtaf=r'temperature.dta'tem=pd.read_stata(f)#csv、xlsxland_1 = pd.read_csv("land_1.csv") 这里数据过大，思路：拆分两个dta导入py，然后concatx=pd.concat([x1,x2],axis=0) #=0是行之间的拼接3查看数据类型\结构x.co

2022-03-01 20:08:11 382

原创 Cross-validation 数据划分

Cross-validation 数据划分第一次使用 csdn 写文章，以后要不断记录学习过程。关于交叉检验的数据划分基于cv数据划分中的kfold方法，其中将数据集划分为10// An highlighted blockfrom sklearn.model_selection import KFoldimport numpy as npkf = KFold(n_splits=10)X=xfor train_index, test_index in kf.split(X): pr

2021-04-15 15:54:03 243

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人