![](https://img-blog.csdnimg.cn/20190918140129601.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
上市公司年报文本分析
文章平均质量分 68
上市公司年报文本分析
Ryo_Yuki
以初入创赛坑的学生视角,分享竞赛参赛建议和项目计划书撰写经验,佛系更新。
展开
-
【年报文本分析】Python+Selium获取互动易平台投资者提问与上市公司回应文本数据
需要提前下载好三个库,都可以用pip install轻松下载,稍微麻烦点儿的是需要去下载个对应版本的chromedriver.exe驱动,放到python或者Anaconda的文件夹目录下,然后添加环境变量(这部分报错了自行百度即可,操作起来不麻烦的)注意time.sleep()是必要的,一是为了避免频繁操作被浏览器提醒,二是在网络不好的情况下让网页加载完全,否则都会导致报错,一定不要图快,建议在网络环境较好的情况下运行。这之中还会遇到诸多问题,在代码的注释里也都写到了,其他需求可以做参考。原创 2024-07-26 13:59:01 · 367 阅读 · 0 评论 -
【年报文本分析】Python批量提取上市公司年报文本中的“MD&A”和董事会报告部分
一些做文本分析的经管类文章里在介绍时简单得用“MD&A”(即管理层讨论与分析)部分作为文本分析样本,但实际上在很多年报中并无叫该名的章节,可能还会叫董事会报告等一系列名称,所以按照下方文献的思路,重新编制代码,提取相应部分。[1]姚加权,张锟澎,郭李鹏,等.人工智能如何提升企业生产效率?——基于劳动力技能结构调整的视角[J].管理世界,2024,40(02):101-116+133+117-122.DOI:10.19744/j.cnki.11-1235/f.2024.0018.原创 2024-07-26 12:29:05 · 335 阅读 · 0 评论 -
【年报文本分析】Python+Pytorch微调BERT预训练模型,使用大语言模型完成文本分类任务——金星晔等(2024)《经济研究》大语言模型方法的复现
金星晔老师等在《经济研究》2024年第3期发表了一篇题为《企业数字化转型的测度难题:基于大语言模型的新方法与新发现》,使用替代了传统的以词频为依据的企业数字化转型、数字技术能力等一系列变量的测量方法。金星晔,左从江,方明月,李涛,聂辉华.企业数字化转型的测度难题:基于大语言模型的新方法与新发现[J].经济研究,2024,59(3):34-53.根据此篇论文第五作者,人大教授聂辉华老师的预测,以及这篇论文发表的期刊和作者团队的影响力,大概率会对这一领域造成“创造性破坏”的力量。原创 2024-05-13 14:53:28 · 1468 阅读 · 1 评论 -
【年报文本分析】python+selium实现根据股票代码和对应年份获取上市公司年报链接(巨潮资讯网)
返回虚拟浏览器对象。原创 2024-04-25 23:45:00 · 1005 阅读 · 0 评论 -
【年报文本分析】第四辑:python批量处理PDF文档,输出自定义关键词的出现次数
目录序言函数模块介绍对文件进行批量重命名将PDF转化为txt删除txt中的换行符添加自定义词语分词与词频统计主函数本地文件结构全部代码结果预览序言做这个的背景是研究生导师要批量处理社会责任报告,提取出一些共性的关键词,大多数批量提出关键词次数的任务都能够完成代码能够运行,但效率不一定最优(我的配置能够实现2.5s一份),Anaconda里自带的库就够用,无需安装其他库函数模块介绍具体的全部代码可见全部代码部分,这部分介绍思路和相应的函数模块对文件进行批量重命名因为文件名是中文,且无关于最后的结原创 2022-04-16 18:01:02 · 5710 阅读 · 118 评论 -
【年报文本分析】第三辑:从pdf链接的列表中批量下载年报文件
在for循环中读取每一行数据的链接数据,创建一个空pdf,将链接指向的pdf文件写入空pdf文件。第一辑中已经获取了新三板年报的pdf链接,使用request库进行批量下载。send_headers为requests的headers,不需要做变动。for循环内容可以根据个人需求更改for循环里的内容。原创 2024-02-24 00:49:12 · 569 阅读 · 0 评论 -
【年报文本分析】第一辑:python+selium模拟浏览器,批量获取新三板上市公司年报链接
返回虚拟浏览器对象。原创 2024-02-24 00:05:11 · 1275 阅读 · 5 评论