自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 stata操作汇总0330

ivivreghdfe y (x= z) $cl , absorb ( ) cl() 日期格式gen month=month(date)gen year =year(date)gen monthdate=ym(year,month)format monthdate %tmbys使用bys city monthdate: egen mtem=mean(TEM)下载ssc install 分类变量生成数值型encode 省,gen(prov)...

2022-03-30 22:10:54 494

原创 stata数据处理0304

stata基本处理首先是非常多的csv文件 3g多的数据 如何合并为一个win+r cmd d: +cd+路径 随后 copy*.csv all.csv 就可以啦stata str转number help destring我发现 destring ,replace 可以全部变量都换成long…分类变量 如何放入回归?1)通过 code tripType 显示此变量的类型,如下tripTypetype: string (str8)tabulation: Freq.

2022-03-16 14:21:52 2953

原创 python数据清洗 0302

python数据清洗第二partQ1 str分割昨天发现merge无法匹配,找到原因发现id是不对应的df1的id是四位数;df2的id是六位数 后两位是区号tem["city"]=tem["city"].astype(str)tem["city"]=tem["市代码"].str[0:4]这样就解决了id_code 不匹配的问题Q2 无法修改为datetime格式原因:原始数据date 超过pd.timestamp.max,eg 3099-12-1df0.loc[df

2022-03-02 21:10:46 372

原创 Python数据预处理-20220301

数据清洗过程记录 3.1首先调试%pwd%cd "F:\\python"%run init.py #自己的包2导入数据#dtaf=r'temperature.dta'tem=pd.read_stata(f)#csv、xlsxland_1 = pd.read_csv("land_1.csv") 这里数据过大,思路:拆分两个dta导入py,然后concatx=pd.concat([x1,x2],axis=0) #=0是行之间的拼接3查看数据类型\结构x.co

2022-03-01 20:08:11 286

原创 Cross-validation 数据划分

Cross-validation 数据划分第一次使用 csdn 写文章,以后要不断记录学习过程。关于交叉检验的数据划分基于cv数据划分中的kfold方法 ,其中将数据集划分为10// An highlighted blockfrom sklearn.model_selection import KFoldimport numpy as npkf = KFold(n_splits=10)X=xfor train_index, test_index in kf.split(X): pr

2021-04-15 15:54:03 138

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除