更新!【更新至2022】2001-2022上市公司年报文本分析与数字经济词频统计
(全套代码+数据)
更新时间:2023年5月5日
处理软件:Python
3.1
0
年度区间:2001-2022变量个数:64(详见样本数据——免费下载查阅)
年报数量:53787
说明:本数据为2001-2022上市公司年报文本分析与数
字经济词频统计。本套数据包含内容如下:
1.2001-2022上市公司年报文本(t
xt格式)
2.数字经济词频统计与指标构建全过程及代码
3.2001-2022数
字经济词频统计数据(xlsx格式+dta格式——含各个维度及维度内部数字经济词典
词频统计)
由于数据量较大,数据采取百度网盘链接形式,并且省去了中间过程数据(如
需要购买后可向楼主索取),大家可以先在附件中免费下载查看样本数据。
数字经济词
频统计构建过程:
1.巨潮年报爬虫代码——爬取上市公司年报(pdf格式);
2.PDF转换TXT——批量将爬取的上市公司年报从pdf格式转化为txt
格式;
3.筛选并标准化年报文本——规范年报txt格式方便后续操作,这
一步其实很繁琐但却非常关键,原始的年报名字五花八门并不规范,而且年报经常会有更正
、更新等,需要保留最新版本的年报,标准化之后格式为“股票代码_年度_发布日期_*
***年年度报告.txt”,例如,“000002_2023_20230331_2
022年年度报告.txt”。
4.jieba分词代码——根据jieba库,并
结合数字经济字典进行分词,本数据数字经济字典参考文献——唐要家等,数字经济、市场
结构与创新绩效,中国工业经济2022年第10期。
数字经济选用以下四方面关键词:
一是反映数据要素存量,包括大数据、数据集成、数据融合、数据信息、数据管理、数据资
产、数字化;二是反映数据开发能力,包括自动化、5G、智能、机器人、机器学习、3D
打印、3D技术、3D工具、AI、物联网、边缘计算、云计算、云服务、云端、数
字科技、数字技术、计算机技术、信息时代、信息化、信息技术、信息集成、信息通信;三
是反映数据驱动商业应用,包括O2O、B2B、C2C、P2P、C2B、B2C、电
子技术、电子科技、线上、网络、线上线下、互联网、电子商务、跨境电商、电商平台、智
慧时代、智慧建设、智慧业务、数字运营、数字终端、数字经济、数字体系、数字供应链、
数字营销;四是反映数据价值变现,包括数字货币、区块链、数字贸易。
5.数字经济词
频统计代码——根据分词结果进行数字经济各个维度的词频统计;
6.年报文本总词频
统计——统计txt年报各上市公司各个年度的总词频;
7.年报文本总字数统计
——统计txt年报各上市公司各个年度的总字数;
8.合并数字经济词频统计数
据——合并第5步中的数字经济词频统计数据;
9.合并数字经济词频与年报文本字数
和词频——将第8步中的数字经济词频数据与第6、7步的年报总词频和总字数数据合并,
并生成最终面板数据。
各年度观测值:
年度 Freq. Percent Cu
m.
2001 1,009
1.88
1.88
2002 1,078 2
3.8
8
2003 1,141
2.12 6
2004 1,233
2.29
8.29
2005 1,235
2.3 10.59
2006 1,318
2.45 13
.04
2007 1,437
2.67 1
5.71
2008 1,500
2.7
9 1
8.5
2009 1,649
3.07 2
1.57
2010 1,996
3.71 2
5.28
2011 2,231
4.15 2
9.43
2012 2,
354
4.38 3
3.8
2013 2,400
4.46 3
8.26
2014
2,519
4.68 4
2.95
2015 2,717
5.05 48
201
6 3,010
5.6 5
3.59
2017 3,407
6.33 5
9.93
2018 3,506
6.52 6
6.45
2019 3,737
6.95 73
.4
2020 4,269
7.94 8
1.33
2021 4,922
9.15
90.48
2022 5,119
9.52 100
Total 53,787
100
描述性统计:
variable N mean sd min p50
max
数字经济词频 53787 5
1.664 9
8.893 0 17 170
5
数据展示:
代码展示:
数字经济样本数据(76Bytes)
下载链接:https://download.csdn.net/download/weixin_45892228/89108809
点击下载:【更新至2022】上市公司年报文本分析与数字经济词频统计(全套代码+数据)