-
目标:把公司的数据和到一张表上
我在国泰安上下载了A股上市公司2008-2016年的某些数据,要做描述性统计和相关性分析,但数据合并对我来说是个问题。先后尝试了excel的vlookup函数,奈何自己技术不过关,数据量又大(1.9万条),过程中excel容易卡,匹配结果大部分为空,当时什么都不会,有点想人工匹配了,迷之工作量。因为一些原因,我这一学期才接触数据库,技术也不行,给同组同学诉苦,他说,可以用数据库帮我合并,几条语句,很快。
没过一会儿,他就合并好,发给了我。我真的万分感谢,觉得离作业完成只差一步之遥,数据全有了,只差计算了。并感叹数据库的神奇,暗下决心好好学习数据库!
过来一段时间,我计算指标时,发现里面缺了几年的数据,但里面已经有2.7万条数据。在合并过程中,有很多重复数据(例如,某几个个案,里面仅有1,2个不同的属性)。我刚学习了左外连接,让他帮我左外连接的,他说,左外连接的结果很奇怪,会出现很多奇怪的东西。我怕数据量暴增,就重新跟他交代了每张表之间数据匹配的依据,结果出来的数据还是少了几年的,导致里面一个指标无法计算。 -
转机
在第二天课中,偶然发现stata可以做纵向和横向数据匹配,并询问了老师,她给我说,一对一,多对多,1对多(在横向数据匹配中),我后来查询了,但不是很清楚。就直接用代码上手了(参考的stata教程
STATA横向数据匹配
本文讲述了作者在处理大量A股上市公司数据时遇到的问题,从最初尝试Excel的VLOOKUP函数到转向数据库合并,最终发现STATA软件在数据匹配上的高效和便捷。通过示例代码展示了如何在STATA中进行数据匹配,强调了排序的重要性。
摘要由CSDN通过智能技术生成