- 博客(5)
- 收藏
- 关注
原创 stata操作汇总0330
ivivreghdfe y (x= z) $cl , absorb ( ) cl() 日期格式gen month=month(date)gen year =year(date)gen monthdate=ym(year,month)format monthdate %tmbys使用bys city monthdate: egen mtem=mean(TEM)下载ssc install 分类变量生成数值型encode 省,gen(prov)...
2022-03-30 22:10:54
494
原创 stata数据处理0304
stata基本处理首先是非常多的csv文件 3g多的数据 如何合并为一个win+r cmd d: +cd+路径 随后 copy*.csv all.csv 就可以啦stata str转number help destring我发现 destring ,replace 可以全部变量都换成long…分类变量 如何放入回归?1)通过 code tripType 显示此变量的类型,如下tripTypetype: string (str8)tabulation: Freq.
2022-03-16 14:21:52
2953
原创 python数据清洗 0302
python数据清洗第二partQ1 str分割昨天发现merge无法匹配,找到原因发现id是不对应的df1的id是四位数;df2的id是六位数 后两位是区号tem["city"]=tem["city"].astype(str)tem["city"]=tem["市代码"].str[0:4]这样就解决了id_code 不匹配的问题Q2 无法修改为datetime格式原因:原始数据date 超过pd.timestamp.max,eg 3099-12-1df0.loc[df
2022-03-02 21:10:46
372
原创 Python数据预处理-20220301
数据清洗过程记录 3.1首先调试%pwd%cd "F:\\python"%run init.py #自己的包2导入数据#dtaf=r'temperature.dta'tem=pd.read_stata(f)#csv、xlsxland_1 = pd.read_csv("land_1.csv") 这里数据过大,思路:拆分两个dta导入py,然后concatx=pd.concat([x1,x2],axis=0) #=0是行之间的拼接3查看数据类型\结构x.co
2022-03-01 20:08:11
286
原创 Cross-validation 数据划分
Cross-validation 数据划分第一次使用 csdn 写文章,以后要不断记录学习过程。关于交叉检验的数据划分基于cv数据划分中的kfold方法 ,其中将数据集划分为10// An highlighted blockfrom sklearn.model_selection import KFoldimport numpy as npkf = KFold(n_splits=10)X=xfor train_index, test_index in kf.split(X): pr
2021-04-15 15:54:03
138
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人