自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 数据库下载的不同类型的数据,转换为stata可以读取的panel data的方法归总

数据库下载的不同类型的数据,转换为stata可以读取的panel data的方法归总

2022-07-29 18:34:56 971

原创 关于下载的wide形式的数据(横轴为地区,纵轴为年份)批量转换为long形式的代码(stata版)

很多数据库下载到的数据都是wide形式(即横轴为地区,纵轴为年份)。这一形式难以转换为我们做分析时候用到的long形式(即通常的panel data形式)。最近碰到这一问题,自己写了一个代码进行转换,在此分享一下。clear*设置需要处理的数据的路径cd "/Users/sulis/Desktop/税收、租税替代与商住用地价格差/税收、租税替代与商住用地价格差数据/营业税数据"*循环读取该文件夹下的各个文件local files: dir "." file "*.csv"foreach f

2022-04-28 19:43:48 1538

原创 stata里reghdfe函数在不同固定效应设计下的观测值问题

最近在修改一篇working paper发现,用reghdfe做回归的时,在相同的基准模型中添加不同的交互固定效应,模型的观测值数量不同。由于担心审稿人的质疑,进一步讨论了这一问题。 后来也与学校内其他老师交流,发现也有类似的问题。但是老师的解决思路是通过if e(sample)的方式强行使得各模型回归观测值数量相同。感觉这一方式有点治标不治本,但是查阅了很多中文材料,咨询过一些国内的大佬,好像都没有给一个很好的解释。后来找到一篇参考文献,大致解释清楚了这一函数观测值数量的...

2021-07-14 10:08:26 14998 16

原创 ArcPy的一些奇怪错误

今天在运行arcpy.SpatialJoin_analysis函数时显示Process finished with exit code xxxxx(忘记具体代码了)找了很久的原因,后来发现是因为空间匹配时shp文件没有定义坐标系的原因。将文件坐标系定义为WGS84就可以了~...

2021-07-13 18:08:08 298

原创 解决windows和Mac之间互传文件,导致stata读csv乱码的情况

由于mac和一般windows电脑编码方式不同,处理好的数据传过来经常出现乱码。引用陈强老师的解决方案,十分有效!*分析该dta的编码方式unicode analyze surname_test.dta*设置默认编码unicode encoding set gb18030*将dta文件编码进行转换unicode translate surname_test.dta*重新导入数据use surname_test.dta,clear...

2021-01-17 16:16:15 1083

原创 R语言入门(九)读取txt文件时如何跳过最后一行文字(如数据来源等)

最近碰到一个新问题:用R读txt文件的时,表头前与最后一行后都有一些文字,用read.table去读的时候就会报错如果文字出现在第一行的时候还比较好处理,可以使用skip选项跳过第一行进行读取read.table("..",skip=1)但是最后一行因为没办法具体行数,无法解决。而且不像read csv等函数,即便出现错误也可以先读进来。。如果最后一行行首有特征标识符,比如“#”,可以通过comment.char="#"方式设定该行为注释,跳过该行进行读取。但是如果是纯文字这个方法也不管用了网

2020-12-01 22:02:32 3677

原创 R语言入门(八) 如何实现stata中drop if

stata中删除数据常用的drop if(tempdata>2018|tempdata<2000)可以用以下语法进行替代 index=which(tempdata>2018|tempdata<2000) data<-data[-index,]

2020-11-28 10:00:37 5950

原创 R语言入门(七)read excel和read csv的区别

read.csv后的数据结构是"data.frame"read_excel后的数据结构是"tbl_df" “tbl” “data.frame”如果如果read_excel不好处理,可以使用as.data.frame(data)的方式将"tbl_df" “tbl” “data.frame"转为"data.frame”...

2020-11-28 09:11:31 1870

原创 从pandas到geopandas

1. geopandas的简介pandas包是在数据处理中较为常用的包,但是其对空间数据处理不佳。使用geopandas可以很好的处理以shp文件为代表的数据。此外,由于与pandas语法相近,而且安装起来较为简便,相较于其他的包有一定的优势。2.geopandas的安装直接利用pip可以简单安装pip install geopandas3.基本语法引用包import geopandas as gpdimport pandas as pd读取数据shp = gpd.read_f

2020-07-26 11:26:25 617

原创 在ArcGIS上使用python(arcpy包)的入门教程

1.why arcpy?如果简单将arcgis理解成绘图与分析两大功能的话(由于本人对arcgis使用十分局限,该分类仅为个人使用范畴内的一个总结),arcpy包在arcgis的分析功能上有很大的帮助。其主要功能是利用代码行取代传统的手动点击。其应用在解决以下几大场景下的问题中十分有效:操作步骤较多,并且希望自己的操作之后可以被重复实现。操作步骤选项繁复,难以绝对保证每个步骤选项设置无误。...

2020-05-08 17:13:49 20947

原创 python数据筛选总结

数据筛选总结正则表达式筛选法语法import rere.findall('正则表达式',字符串)优缺点优点:简单粗暴,输入字符串即可,不需要解析缺点:对于要筛选出大块HTML代码的情况,可能碰到相同的头尾导致只能筛选出一部分标签筛选法语法from bs4 import BeautifulSoupsoup.findall("a") #依照标签查找soup.findall(te...

2019-11-16 19:53:03 690

原创 Selenium包学习

Selenium包学习引用头文件获取浏览器定位元素插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入引用头文件from selenium import webdriver获取浏...

2019-11-13 11:50:23 181

原创 python中pandas包以及DataFrame数据类型读写、修改等(持续更新)

data=pd.read_excel(r'路径') #读入数据import osdir = r"C:\Users\User\Desktop\data"files = os.listdir(dir)#读入路径中所有文件的文件名data.iloc[0,0] #访问data中的0,0元素data["a"] #访问data中a标签a=pd.DataFrame() #建一个空的DF类型a=p...

2019-07-12 16:22:40 871

原创 量化论文数据summary的全自动代码 数据丢入文件夹即可

#clear rm(list=ls())#import package library(readxl) library(fBasics) library(tseries)#import data dir<-dir("C:\\Users\\User\\Desktop\\data") L=length(dir)#allocate memory return=matrix(0...

2019-05-23 19:07:53 223

原创 Python获取百度地图API中POI的基础教程

第一步:进入百度地图开放平台->开发文档->web服务APIhttp://lbsyun.baidu.com/index.php?title=%E9%A6%96%E9%A1%B5第二步:获取密匙(一般都需要用,按照要求注册就行)第三步:找到所需API的帮助文档,若要获取POI数据,可以点击左方“”地点检索“->服务文档。里面包括调用API的url格式,请求参数和返回参数...

2019-03-20 17:55:19 1748 2

原创 stata 月度panel、季度panel的数据生成方式

直接用format 某变量 %tm会显示不是字符串啥的(很奇怪的错误),做不了正确做法是先创建变量g 新变量 = monthly(原变量,"YM") *月度数据*g 新变量 = quarterly(原变量,"YQ") *季度数据*进行转换,转换为数字类型后再用format就OK了...

2019-03-19 14:13:19 17155 2

原创 R语言入门(六)excel时间数据导入时日期格式的小问题

excel储存日期的格式为xxxx/xx/xx,而在R里面as.Date()函数识别的字符串格式为xxxx-xx-xx。将excel的数据保存成csv文件,即便在设置单元格格式中变成R语言所识别的格式,csv文件中保存的依旧是excel中的原始格式,很头疼。查找替换也试过,但是替换完excel又自动的调成了/格式试了很多方法,用R里面进行字符串的拼接解决了该问题附上代码,data为操作...

2019-03-18 12:22:56 11282

原创 时间序列的bootstrap

bootstrap是一个很简单的重抽样过程,然而放在时间序列上就没那么简单了。与随机序列不同,时间序列存在时间趋势,不能直接通过原序列进行构造。一般来讲对于时间序列,抽样方式有以下几种:Part 1 块抽样(blockbootstrap)block bootstrap有两种形式,第一种是moving block bootstrap,简称MBB,由学者Künsch在198...

2019-03-18 12:22:38 5279

原创 地图坐标纠偏

最近在研究GIS...导师有个关于坐标纠偏小细节问题,自己试验了一下,影响真的很大..自己做了张图,结果很明显下图是武汉的房价数据,爬出来的坐标都是百度坐标,地图坐标是谷歌地球的坐标(标准的坐标)下图1左边绿色点是江岸区(未纠偏的数据),右边是江岸区(纠偏后的数据),可以发现江汉区数据很多已经越过了江汉区的边界....但是江岸区却很好看,全部都在边界内。图二则是全纠偏过的效果~对比感还是蛮...

2019-03-05 14:47:09 1072 5

原创 R语言入门(五) 年月日的提取与日期差计算

关于lubridate包在xts,zoo类型数据中,我们通常会面临date数据的处理。但是要在date数据里面提取出年、月、日相关信息比较麻烦,需要转化成字符串再进行分割。lubridate包提供了一个很简便的处理方法,即year()、month()函数,可以直接将date类型的数据中相应的内容取出来。安装方法:install.packages(“lubridate”),安装成功后使用li...

2019-01-07 11:26:06 12319 3

原创 R语言入门(四)元素的查找、求和、判断、类型转换

关于元素寻找:如果要寻找元素的位置,可以使用函数which,类似于matlab中的find函数,用法为index=which(bool==1),可以找到bool数组里面所有等于1的元素的位置。如果是单纯要找到数组里面的某一些元素,可以考虑使用函数subset,用法为 subset(airquality, Temp &gt; 80, select = c(Ozone, Temp))...

2018-12-16 20:51:21 22349

原创 政策评估计量经济学模型(DID)

DID(双重差分)是计量经济学比较新颖的模型,目前使用的也较为频繁。前段时间旁听了贸大-山大的财税方面的交流会,一天六篇文章大约2~3篇使用了该模型。此外,现有的书籍很少有对该模型的描述。本人目前在完成本科毕业设计,涉及到DID模型,特此汇总一下自己的理解。Concept :自然实验(natural trial)。相对应概念为实验室实验。特点:事前差异。即除了我们要研究核心变量的差异外,还...

2018-12-14 21:48:36 47869 1

原创 R语言入门代码(三)时间数据类型

class()函数区分某一对象的类型两种时间序列的数据类型:zoo和xtszoo: http://blog.fens.me/r-zoo/xts:https://blog.csdn.net/bgk083/article/details/50146063由一般的矩阵生成该类型的数据的流程为:假设data是K线数据shuju.date&lt;-as.Date(data[...

2018-12-14 08:32:34 407

原创 R语言入门代码(二)for循环的理解

关于for循环for(i in seq_len(nrow(data))) {}这里做几点解释:seq_len(x)函数:返回从1到x,步长为1的序列。nrow(x):返回x的行数(一个单值),类似的还有ncol(x) 返回列数。 #在R中nrow和ncol只能对矩阵元素进行计算。如果是数组长度需要用函数length()。个人理解for循环的范围不像其他语言,设定起始、...

2018-12-12 19:37:47 8168

原创 R语言入门代码(一)清屏、清内存、导入数据、加载包

最近跟老师在做K线分析的相关编程工作,开始接触R语言。放一点常用、基础的R语句。清除清空所有变量 rm(list=ls())清理屏幕 ctrl+L导入数据直接写入数据 y=c(1,2,3)导入xlsx格式文件 read.xlsx2(file="C:\\Users\\10097\\Desktop\\data.xlsx",sheetIndex=1) 但是用xlsx...

2018-12-12 10:18:52 14493

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除