【更新至2022】上市公司年报文本分析与数字经济词频统计（全套代码+数据）

最新推荐文章于 2024-08-26 12:27:04 发布

zxwk01

最新推荐文章于 2024-08-26 12:27:04 发布

阅读量1.1k

点赞数 8

文章标签：大数据

本文链接：https://blog.csdn.net/zxwk01/article/details/138426011

版权

更新！【更新至2022】2001-2022上市公司年报文本分析与数字经济词频统计
（全套代码+数据）
更新时间：2023年5月5日
处理软件：Python
3.1
0
年度区间：2001-2022变量个数：64（详见样本数据——免费下载查阅）

年报数量：53787

说明：本数据为2001-2022上市公司年报文本分析与数
字经济词频统计。本套数据包含内容如下：
1.2001-2022上市公司年报文本（t
xt格式）

2.数字经济词频统计与指标构建全过程及代码

3.2001-2022数
字经济词频统计数据（xlsx格式+dta格式——含各个维度及维度内部数字经济词典
词频统计）
由于数据量较大，数据采取百度网盘链接形式，并且省去了中间过程数据（如
需要购买后可向楼主索取），大家可以先在附件中免费下载查看样本数据。

数字经济词
频统计构建过程：

1.巨潮年报爬虫代码——爬取上市公司年报（pdf格式）；

2.PDF转换TXT——批量将爬取的上市公司年报从pdf格式转化为txt
格式；

3.筛选并标准化年报文本——规范年报txt格式方便后续操作，这
一步其实很繁琐但却非常关键，原始的年报名字五花八门并不规范，而且年报经常会有更正
、更新等，需要保留最新版本的年报，标准化之后格式为“股票代码_年度_发布日期_*
***年年度报告.txt”，例如，“000002_2023_20230331_2
022年年度报告.txt”。

4.jieba分词代码——根据jieba库，并
结合数字经济字典进行分词，本数据数字经济字典参考文献——唐要家等，数字经济、市场
结构与创新绩效，中国工业经济2022年第10期。
数字经济选用以下四方面关键词：
一是反映数据要素存量，包括大数据、数据集成、数据融合、数据信息、数据管理、数据资
产、数字化；二是反映数据开发能力，包括自动化、5G、智能、机器人、机器学习、3D
打印、3D技术、3D工具、AI、物联网、边缘计算、云计算、云服务、云端、数
字科技、数字技术、计算机技术、信息时代、信息化、信息技术、信息集成、信息通信；三
是反映数据驱动商业应用，包括O2O、B2B、C2C、P2P、C2B、B2C、电
子技术、电子科技、线上、网络、线上线下、互联网、电子商务、跨境电商、电商平台、智
慧时代、智慧建设、智慧业务、数字运营、数字终端、数字经济、数字体系、数字供应链、
数字营销；四是反映数据价值变现，包括数字货币、区块链、数字贸易。

5.数字经济词
频统计代码——根据分词结果进行数字经济各个维度的词频统计；

6.年报文本总词频
统计——统计txt年报各上市公司各个年度的总词频；

7.年报文本总字数统计
——统计txt年报各上市公司各个年度的总字数；

8.合并数字经济词频统计数
据——合并第5步中的数字经济词频统计数据；

9.合并数字经济词频与年报文本字数
和词频——将第8步中的数字经济词频数据与第6、7步的年报总词频和总字数数据合并，
并生成最终面板数据。

各年度观测值：

年度   Freq.   Percent   Cu
m.
2001   1,009
1.88
1.88
2002   1,078   2
3.8
8
2003   1,141
2.12   6
2004   1,233
2.29
8.29

2005   1,235
2.3   10.59
2006   1,318
2.45   13
.04
2007   1,437
2.67   1
5.71
2008   1,500
2.7
9   1
8.5
2009   1,649
3.07   2
1.57
2010   1,996

3.71   2
5.28
2011   2,231
4.15   2
9.43
2012   2,
354
4.38   3
3.8
2013   2,400
4.46   3
8.26
2014
   2,519
4.68   4
2.95
2015   2,717
5.05   48
201
6   3,010
5.6   5
3.59
2017   3,407
6.33   5
9.93