新库上线 | 上市公司-定期财务报告文本数据库上线!包括65个年报文本指标

更多详情请点击查看原文:新库上线 | 上市公司-定期财务报告文本数据库上线!包括65个年报文本指标

一、前言

年度报告作为上市公司管理层与外部投资者沟通的重要媒介,在引导投资者交易行为,提高资本市场定价效率方面发挥着重要作用。据企研数据统计显示,近20年来,中国上市公司发布的年度报告平均长度从2001年平均2.2万字增长到2021年7.4万字,从63页增加到220页,增幅高达3-4倍。基于现有文献研究需求,企研数据特研发了上市公司定期财务报告文本数据库(以下简称上市公司年报文本数据库)

二、数据库简介

上市公司年报文本数据库基于全部A股上市公司公开披露的年度财务报告(以下简称:年报)全文所构建。该数据库在统计有关文本指标时,剔除了转码失败或者乱码的年报,年报全文来源于巨潮资讯网,通过爬虫和手工整理获得。该库包括5张表、65个指标。

  • 该数据库主要包含如下5张表:

(1)年报基础文本指标是基于上市公司2001年以来的年报文本全文,结合结巴分词等技术构建了反映上市公司年报文本基本特征的指标库。具体包括年报总词数(未剔除停用词)、年报总的字符数(剔除停用词)和年报页数等字段,指标时间跨度为2001-2022年。

(2)年报文本语调指标是基于上市公司2001年以来的年报文本全文,并结合现有国内外文献所提供的情感词典和计算方法所构建。现有文献中常用的财经文本情感语调词典分别是Loughran and Mcdonald(2011)基于欧美上市公司10-K文本构建的的情感词典和Bian et al.(2021)基于中国上市公司年报文本和其他财经文本构建的情感词典。运用这两个词典来衡量年报文本语调有其合理性,并广泛应用于除年报以外的其他财经文本,如:MD&A (Dutta al., 2019;赵昕等, 2022; 周升师和苏昕, 2023)、CEO信函(Patelli and Pedrini, 2014)、业绩预告(Baginski et al., 2016)、分析师报告(马黎珺等,2019)、盈余电话会议(Davis et al., 2011; William and Venkatachalam, 2012)和业绩说明会(谢德仁和林乐, 2015; 林乐和谢德仁, 2017; 甘丽凝等, 2019)等文本信息。参照曾庆生等(2018)的研究,借助有道翻译和谷歌翻译等翻译软件,对Loughran and Mcdonald(2011)提供的情感词典进行翻译,并尽可能的保留同一个单词的多个中文翻译,最终共获得积极词 634 个,消极词 2400 个。另外,数据库也借助Bian et al.(2021)提供的情感词典(包含积极词 1109 个,消极词 1488 个),分别统计了年报中积极词和消极词数,并分别计算了反映上市公司年报文本情感语调的多个指标。

(3)年报可读性指标是基于上市公司2001年以来的年报文本全文,并结合现有国内外文献所提供的计算方法所构建。参照Li(2008),王克敏等(2018)和徐巍等(2021)的研究,该指标库构建了反映年报文本可读性的三种衡量方法,并统计了计算这三种可读性的基础指标,包括:句均字数、副词连词数、会计术语数和常用词数等指标。

(4)年报文本相似度指标是基于上市公司2001年以来的年报文本全文所构建的反映年报文本内容调整幅度的指标库。参照Brown and Tucker(2020)的做法,该指标库包含了反映年报文本相似度的常用指标,包括年报文本之间的余弦相似度、杰卡德相似度、最小编辑距离和欧式距离等,同时考虑到常用词等因素的影响,该指标库同时区分了用TF-IDF加权后的文本相似度和未加权的文本相似度指标。

(5)年报其他文本指标是基于上市公司2001年以来的年报文本全文所构建的反映年报文本特征的其他指标,主要包括数字个数、金额个数、百分比个数、数字占比以及金额和百分比占比等指标。

  • 数据详情如下: 

图片

三、数据库特色

全面的上市公司文本数据源

数据库涵盖了所有A股上市公司2001-2022年最新的年度财务报告,提供了丰富的数据源,可以为研究人员提供全面的数据基础,大大提高了数据的可用性和研究价值。

多维度的上市公司文本指标体系

数据库提供了多种文本指标,包括基础文本指标、文本语调指标、可读性指标、文本相似度指标以及其他文本指标,可以从多个维度分析和理解年报文本特征,全面和多维度的打开上市公司文本“黑箱”。

强时效性和可持续的数据更新

数据库的时间跨度从2001年到2022年,可以追踪和分析近20年的年报变化趋势。随着新一年度的年报发布,数据库会持续更新,保持数据的最新性。

四、数据库字段说明

1.  年报基础文本指标

字段名称字段说明
证券代码证券代码
年份年份
年报总词数
(未剔除停用词)
分词后,年报中包含停用词在内的总的词汇数。
年报总词数
(剔除停用词)
分词后,年报中不包含停用词在内的总的词汇数。
年报总字符数未分词的情况下,年报中总的字符数。
年报总句子数年报中总的句子数。
年报总页数年报的总页数。

2.  年报文本语调指标

图片

3.  年报可读性指标

图片

4.  年报文本相似度指标

图片

5. 年报其他文本指标

图片

五、样例数据

因篇幅有限,推文只展示部分字段。完整数据请登录企研·数据超市(https://m.qiyandata.com)进行查询!

图片

图一 年报基础文本指标(部分)

图片

图二 年报可读性指标(部分)

六、数据下载指南

  • 个人用户采购下载

企研·数据超市(https://m.qiyandata.com)上采购您所需的数据!

采购路径:

  1. 进入企研·数据超市网站(https://m.qiyandata.com);

  2. 点击“个人用户登录”;

  3. 登录成功后,页面将自动跳转至“数据超市”页面;

  4. 点击“获取全部模块”可查看全部可采购数据;点击“筛选专题库”,可对数据进行筛选;在搜索框内输入关键词,可快速获取相关数据。

图片

图片来源:企研·数据超市 m.qiyandata.com

六、引用规范

本数据由企研数据提供。使用企研·社科大数据平台研究发表的社科论文或研究报告,需在中文成果中标明“ 本论文(报告)使用数据全部(部分)来自企研·社科大数据平台(CBDPS)”,英文成果中标注数据来源为“Qiyan China Big Data Platform for Social-Science(CBDPS)”。

​注:如需咨询数据,请查看原文新库上线 | 上市公司-定期财务报告文本数据库上线!包括65个年报文本指标,以获取客服联系方式。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值