** 查找连续3年以上缺失的数据
clear
************生成数据
input id year
1 2010
1 2020
2 2012
2 2020
3 2010
3 2020
4 2010
4 2020
end
xtset id year
tsfill
by id :gen aaa = 100+[_n-1]
// 1缺失连续3年数据
drop if (year == 2016|year == 2017|year == 2018)&id == 1
// 2缺失连续4年数据
drop if (year == 2015|year == 2016|year == 2017|year == 2018)&id == 2
// 3缺失连续2年数据
drop if (year == 2012|year == 2013|year == 2017|year == 2018)&id == 3
// 4缺失头尾2年数据
drop if (year == 2010|year == 2011|year == 2019|year == 2020)&id == 4
*************查找连续3年以上缺失的数据
// 填充完整时间序列
xtset id year
tsfill,full
******法一
// 识别缺失值
gen tag1 = (aaa ==.)
// 按id tag分组
// ssc install spell
spell tag1, by(id)
bys id: egen tag2 = max(tag*_seq)
// tag=0表示该id不存在连续三年缺失,tag=1表示存在连续3年缺失
gen tag = (tag2 >= 3)
// id=1和id=2连续3年以上缺失
tab id if tag ==1
// ******法二
// // 识别缺失值
// gen tag1 = (aaa ==.)
// // ssc install rangestat
// rangestat (sum)tag1, interval(year -2 0) by(id)
// // tag2为连续缺失的年份数,最大为3
// bys id: egen tag2 = max(tag1*tag1_sum)
// // tag=0表示该id不存在连续三年缺失,tag=1表示存在连续3年缺失
// gen tag = (tag2 >= 3)
// // id=1和id=2连续3年以上缺失
// tab id if tag ==1
STATA-查找连续3年以上缺失的数据
最新推荐文章于 2023-09-09 20:15:36 发布