![](https://img-blog.csdnimg.cn/20190918140012416.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python
文章平均质量分 65
1
Ryo_Yuki
以初入创赛坑的学生视角,分享竞赛参赛建议和项目计划书撰写经验,佛系更新。
展开
-
【年报文本分析】Python+Selium获取互动易平台投资者提问与上市公司回应文本数据
需要提前下载好三个库,都可以用pip install轻松下载,稍微麻烦点儿的是需要去下载个对应版本的chromedriver.exe驱动,放到python或者Anaconda的文件夹目录下,然后添加环境变量(这部分报错了自行百度即可,操作起来不麻烦的)注意time.sleep()是必要的,一是为了避免频繁操作被浏览器提醒,二是在网络不好的情况下让网页加载完全,否则都会导致报错,一定不要图快,建议在网络环境较好的情况下运行。这之中还会遇到诸多问题,在代码的注释里也都写到了,其他需求可以做参考。原创 2024-07-26 13:59:01 · 367 阅读 · 0 评论 -
【年报文本分析】Python批量提取上市公司年报文本中的“MD&A”和董事会报告部分
一些做文本分析的经管类文章里在介绍时简单得用“MD&A”(即管理层讨论与分析)部分作为文本分析样本,但实际上在很多年报中并无叫该名的章节,可能还会叫董事会报告等一系列名称,所以按照下方文献的思路,重新编制代码,提取相应部分。[1]姚加权,张锟澎,郭李鹏,等.人工智能如何提升企业生产效率?——基于劳动力技能结构调整的视角[J].管理世界,2024,40(02):101-116+133+117-122.DOI:10.19744/j.cnki.11-1235/f.2024.0018.原创 2024-07-26 12:29:05 · 334 阅读 · 0 评论 -
【年报文本分析】Python+Pytorch微调BERT预训练模型,使用大语言模型完成文本分类任务——金星晔等(2024)《经济研究》大语言模型方法的复现
金星晔老师等在《经济研究》2024年第3期发表了一篇题为《企业数字化转型的测度难题:基于大语言模型的新方法与新发现》,使用替代了传统的以词频为依据的企业数字化转型、数字技术能力等一系列变量的测量方法。金星晔,左从江,方明月,李涛,聂辉华.企业数字化转型的测度难题:基于大语言模型的新方法与新发现[J].经济研究,2024,59(3):34-53.根据此篇论文第五作者,人大教授聂辉华老师的预测,以及这篇论文发表的期刊和作者团队的影响力,大概率会对这一领域造成“创造性破坏”的力量。原创 2024-05-13 14:53:28 · 1463 阅读 · 1 评论 -
【年报文本分析】python+selium实现根据股票代码和对应年份获取上市公司年报链接(巨潮资讯网)
返回虚拟浏览器对象。原创 2024-04-25 23:45:00 · 1005 阅读 · 0 评论 -
【年报文本分析】第三辑:从pdf链接的列表中批量下载年报文件
在for循环中读取每一行数据的链接数据,创建一个空pdf,将链接指向的pdf文件写入空pdf文件。第一辑中已经获取了新三板年报的pdf链接,使用request库进行批量下载。send_headers为requests的headers,不需要做变动。for循环内容可以根据个人需求更改for循环里的内容。原创 2024-02-24 00:49:12 · 569 阅读 · 0 评论 -
【年报文本分析】第一辑:python+selium模拟浏览器,批量获取新三板上市公司年报链接
返回虚拟浏览器对象。原创 2024-02-24 00:05:11 · 1275 阅读 · 5 评论 -
Python基于jieba+wordcloud实现文本分词、词频统计、条形图绘制及不同主题的词云图绘制
python词频统计、词云绘制原创 2023-11-23 23:25:02 · 2697 阅读 · 0 评论 -
Python实现某只股票的MACD、KDJ指标的单双金叉点判定
在股票K线图中,短期的收盘价均线向上穿越长期均线即为金叉,但如果长期均线向下或变缓,同时短期均线向上穿越就不能称之为金叉。对于MACD指标,若差离值线由下向上突破移动平均线,即DIF值前一天小于DEA值,当天大于DEA值,可视为金叉;对于KDJ指标,若K线由下向上突破D线,即K值前一天小于D值,当天大于J值,可视为金叉。原创 2023-07-08 09:42:16 · 1373 阅读 · 0 评论 -
python实现数据的批量max-min标准化,告别反复的EXCEL操作
使用前需要安装好pandas库,手动修改代码中的startCol、varNum、filePath、sheet_name。虽然EXCEL能够胜任此项工作,但是写论文时反复处理数据也很麻烦,每次处理数据都以为是最后一次,结果是永无止境。因此,本篇基于pandas库,点击即可完成数据的批量max-min标准化。原创 2022-12-13 15:29:18 · 958 阅读 · 0 评论 -
python判断素数(质数):for-else循环的理解与示例应用
for-else循环主要用于判断循环是否运行不完全(即是否被中途打断),如果循环运行完全(不被中途打断),则执行else语句内容,否则不执行,常见的跳出循环方式:break、continue、return(函数内)for-else循环在判断素数时的作用如果能被整除(不是素数),break跳出当前for循环,不执行任何操作;如果不能被整除(是素数),for迭代完所有书都没有break跳出循环,执行else语句,把这个素数添加到列表中示例a=[3,1,12,5,14,8,7,2,5,3,2,6,7,原创 2021-12-08 20:09:17 · 4687 阅读 · 0 评论 -
python不使用第三方库,从txt文本文档中读取表格型字符串数据并进行数据处理操作
目录数据规范核心思想预操作数据操作非表格型.txt文件字符串数据规范.txt表格型数据如下,其中分割符为’\t’,最后通过换行符’\n’换行核心思想打开文件,排除与数据无关的第一行,将从第二行开始的有效数据通过去尾、分割转化为易于操作的二维列表形式,通过int()或float()把数字型字符串数据转化为数字数据预操作with open(filepath) as f:#filepath自定义 f.readline()#去掉与数据无关的第一行 lines=f.readlines()原创 2021-12-04 08:59:24 · 1104 阅读 · 0 评论 -
python+改进的TextRank算法(jieba模块),增加自定义关键词语的初始权重,适应特定主题数据的文本分析工作
jieba.analyse.textrank()算法支持提取关键词,但是因为太通用了,所以对某些词频低但是重要性强的词语无法提取出来如我的毕设对政府工作报告的文本分析中,词频最高的是“发展”和“建设”,但是这两个词太宽泛了,反而不如词频相对较低的“科技”、“民生”、“生态”等更能体现政府工作,所以对其进行了修改主要是进入这个模块,把他的核心类以及相关类、变量、import都给复制到本地即可。.........原创 2022-06-03 12:13:06 · 1364 阅读 · 3 评论 -
python+selium模拟浏览器,在知网高级检索页面进行全文检索,获取页面数据并录入excel(非下载文献)
目录序言函数模块介绍创建模拟浏览器对象只需要执行一次的部分需要批量执行的重复操作部分获取网页数据录入excel主函数本地文件结构全部代码结果预览控制台文件序言场景是在知网高级检索界面中,选择报纸–>点击包含非学术文献–>改成全文模式–>点击检索页发表年度–>获取括号内的数字和对应的年份需要三个库,都可以用pip install轻松下载,稍微麻烦点儿的是需要去下载个对应版本的chromedriver.exe驱动,放到python或者Anaconda的文件夹目录下,然后添加环境变原创 2022-05-23 22:59:15 · 1220 阅读 · 0 评论 -
【年报文本分析】第四辑:python批量处理PDF文档,输出自定义关键词的出现次数
目录序言函数模块介绍对文件进行批量重命名将PDF转化为txt删除txt中的换行符添加自定义词语分词与词频统计主函数本地文件结构全部代码结果预览序言做这个的背景是研究生导师要批量处理社会责任报告,提取出一些共性的关键词,大多数批量提出关键词次数的任务都能够完成代码能够运行,但效率不一定最优(我的配置能够实现2.5s一份),Anaconda里自带的库就够用,无需安装其他库函数模块介绍具体的全部代码可见全部代码部分,这部分介绍思路和相应的函数模块对文件进行批量重命名因为文件名是中文,且无关于最后的结原创 2022-04-16 18:01:02 · 5710 阅读 · 118 评论