【更新至2022】上市公司年报文本分析与数字经济词频统计(全套代码+数据)

更新!【更新至2022】2001-2022上市公司年报文本分析与数字经济词频统计
(全套代码+数据)
更新时间:2023年5月5日
处理软件:Python
3.1
0
年度区间:2001-2022变量个数:64(详见样本数据——免费下载查阅)

年报数量:53787

说明:本数据为2001-2022上市公司年报文本分析与数
字经济词频统计。本套数据包含内容如下:
1.2001-2022上市公司年报文本(t
xt格式)

2.数字经济词频统计与指标构建全过程及代码

3.2001-2022数
字经济词频统计数据(xlsx格式+dta格式——含各个维度及维度内部数字经济词典
词频统计)
由于数据量较大,数据采取百度网盘链接形式,并且省去了中间过程数据(如
需要购买后可向楼主索取),大家可以先在附件中免费下载查看样本数据。

数字经济词
频统计构建过程:

1.巨潮年报爬虫代码——爬取上市公司年报(pdf格式);


2.PDF转换TXT——批量将爬取的上市公司年报从pdf格式转化为txt
格式;

3.筛选并标准化年报文本——规范年报txt格式方便后续操作,这
一步其实很繁琐但却非常关键,原始的年报名字五花八门并不规范,而且年报经常会有更正
、更新等,需要保留最新版本的年报,标准化之后格式为“股票代码_年度_发布日期_*
***年年度报告.txt”,例如,“000002_2023_20230331_2
022年年度报告.txt”。

4.jieba分词代码——根据jieba库,并
结合数字经济字典进行分词,本数据数字经济字典参考文献——唐要家等,数字经济、市场
结构与创新绩效,中国工业经济2022年第10期。
数字经济选用以下四方面关键词:
一是反映数据要素存量,包括大数据、数据集成、数据融合、数据信息、数据管理、数据资
产、数字化;二是反映数据开发能力,包括自动化、5G、智能、机器人、机器学习、3D
打印、3D技术、3D工具、AI、物联网、边缘计算、云计算、云服务、云端、数
字科技、数字技术、计算机技术、信息时代、信息化、信息技术、信息集成、信息通信;三
是反映数据驱动商业应用,包括O2O、B2B、C2C、P2P、C2B、B2C、电
子技术、电子科技、线上、网络、线上线下、互联网、电子商务、跨境电商、电商平台、智
慧时代、智慧建设、智慧业务、数字运营、数字终端、数字经济、数字体系、数字供应链、
数字营销;四是反映数据价值变现,包括数字货币、区块链、数字贸易。

5.数字经济词
频统计代码——根据分词结果进行数字经济各个维度的词频统计;

6.年报文本总词频
统计——统计txt年报各上市公司各个年度的总词频;

7.年报文本总字数统计
——统计txt年报各上市公司各个年度的总字数;

8.合并数字经济词频统计数
据——合并第5步中的数字经济词频统计数据;

9.合并数字经济词频与年报文本字数
和词频——将第8步中的数字经济词频数据与第6、7步的年报总词频和总字数数据合并,
并生成最终面板数据。

各年度观测值:

年度    Freq.    Percent    Cu
m.
2001    1,009    
1.88    
1.88
2002    1,078    2    
3.8
8
2003    1,141    
2.12    6
2004    1,233    
2.29    
8.29

2005    1,235    
2.3    10.59
2006    1,318    
2.45    13
.04
2007    1,437    
2.67    1
5.71
2008    1,500    
2.7
9    1
8.5
2009    1,649    
3.07    2
1.57
2010    1,996    

3.71    2
5.28
2011    2,231    
4.15    2
9.43
2012    2,
354    
4.38    3
3.8
2013    2,400    
4.46    3
8.26
2014
    2,519    
4.68    4
2.95
2015    2,717    
5.05    48
201
6    3,010    
5.6    5
3.59
2017    3,407    
6.33    5
9.93

2018    3,506    
6.52    6
6.45
2019    3,737    
6.95    73
.4
2020    4,269    
7.94    8
1.33
2021    4,922    
9.15
    90.48
2022    5,119    
9.52    100
Total    53,787    
100    

描述性统计:

variable    N    mean    sd    min    p50
    max
数字经济词频    53787    5
1.664    9
8.893    0    17    170
5

数据展示:


代码展示:


数字经济样本数据(76Bytes)
   

下载链接:https://download.csdn.net/download/weixin_45892228/89108809

点击下载:【更新至2022】上市公司年报文本分析与数字经济词频统计(全套代码+数据)

在处理上市公司年报时,可以使用Python中的jieba库进行关键词提取和词频统计的程序。以下是一个年报样例的处理步骤: 首先,我们需要将年报文本读入程序中。假设该年报的文本保存在一个名为"annual_report.txt"的文本文件中,我们可以使用Python的文件读取功能来读取该文件,将其内容存储在一个字符串变量中。 接下来,需要使用jieba库来进行中文分词。首先,我们需要使用jieba的初始化函进行分词器的初始化,并加载自定义的词典(如果有)。然后,使用jieba的分词函来对年报文本进行分词处理。分词结果可以保存在一个列表变量中。 之后,我们可以利用Python的数据结构来进行数据处理和统计。我们可以使用一个字典变量来存储每个关键词的词频统计结果。遍历分词结果列表,对每个分词进行判断,如果分词已经在字典中,我们就将对应的词频加1;如果分词不在字典中,我们就在字典中新增该关键词,并将其词频设置为1。 最后,我们可以按照词频进行排序,以便找出出现频率最高的关键词。可以使用Python的排序函对字典进行排序,按照词频降序排列。然后,根据需要,可以选择前几个关键词进行输出显示。 综上所述,使用Python中的jieba库可以实现上市公司年报的关键词提取和词频统计。这个程序可以帮助我们对年报进行数字化处理,并快速地获取关键信息。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值