投资分析中的人工智能:大模型用于股票评级

AI in Investment Analysis: LLMs for Equity Stock Ratings

投资分析是金融服务行业的基础,金融分析师通过评估财务数据、发布股票评级等,帮助投资决策和市场趋势。

本研究利用LLMs提高股票评级的准确性和一致性,评估不同数据模态的有效性。结果显示,LLM在短期预测中表现较好,分析师预测在长期预测中表现更佳。

论文地址:https://arxiv.org/pdf/2411.00856

摘要

投资分析是金融服务行业的基石,LLMs(大型语言模型)在股票评级过程中提供了提升机会。传统股票评级方法依赖分析师,面临数据过载、文件不一致和市场反应滞后等挑战。

本研究利用LLMs提高股票评级的准确性和一致性,评估不同数据模态的有效性。使用2022年1月至2024年6月的多种数据集,结果显示基准方法在前向收益评估中优于传统方法。融合财务基本面数据提升评级准确性,新闻数据改善短期表现,但用情感分数替代详细新闻摘要可减少token使用且不影响表现。在某些情况下,完全省略新闻数据可通过减少偏差提升表现。研究表明LLMs能有效利用大量多模态金融数据,提供一致准确的股票评级框架。

简介

投资分析是金融服务行业的基础,金融分析师通过评估财务数据、发布股票评级等,帮助投资决策和市场趋势。股票评级基于公司未来表现的前瞻性预测,影响市场认知。

近年来,深度学习和大型语言模型(LLMs)增强了金融分析的能力,能够处理大量非结构化数据,提升股票评级生成过程。LLMs在预测股票评级方面的优势包括:高效处理复杂数据、按需生成预测、整合多种数据源以减少偏见。

本研究使用GPT-4-32k模型,探索LLMs在股票评级预测中的应用,避免信息泄露,展示其在前向收益评估中的优越性。

相关工作

大模型在金融领域应用

LLM技术在金融领域广泛应用,包括情感分析、摘要生成和复杂问答。研究显示,LLM在股票预测、风险管理和量化交易等任务中表现出色。使用多样化数据集和多阶段LLM应用提升了预测的可解释性。

GPT通过新闻标题情感分数预测股市回报,表现优于传统模型。结合财务新闻、基本面、股价和宏观经济因素进行股票预测。Chain-of-Thought提示和In-Context Learning用于生成信号并优化策略。LLM分析财务风险,整合财报、市场数据和新闻信息。量化交易研究中,使用记忆模块和知识库提升模型自适应能力。LLM自主交易代理利用分层记忆和知识库进行自我改进。

分析师股票评级

分析师股票评级预测股票表现,通常在季度财报、电话会议或重大事件后发布。评级分为五类:强买/买、适度买、持有、适度卖、强卖/卖。不同机构使用不同的评级系统,可能基于风险调整表现或综合多个研究提供者的评分。分析师依据公司表现的定性和定量信息进行评级,帮助投资者决策。常用数据包括:基本面和技术分析、公司及行业新闻、市场和行业表现。

股票评级的重要性

股票评级是未来股票表现的重要指标,投资者利用其进行投资决策。研究表明,股票评级对市场有显著影响,投资者会根据评级调整策略。一项研究分析了20年S&P500交易数据,开发的分类器在预测价格变化方面表现出高准确率,评级是重要特征。G7国家的研究发现,分析师推荐的修订对股价反应显著,尤其在美国。分析师的推荐变化与股票波动性和盈利预测的显著变化相关。在波兰市场的研究显示,基于分析师推荐的投资策略能获得显著的超额收益。

方法

利用大型语言模型(LLMs)分析金融数据并生成股票评级。LLMs能处理大量信息、识别复杂模式并适应新数据。能高效整合多种数据源,提供传统方法难以捕捉的深入见解。提供与分析师相同的信息,包括财务基本面、股价变动、新闻摘要和情绪等。评估LLMs在投资分析中的可行性,识别提升其表现的技术和信息。

提示结构

使用GPT-4-32k模型,具有32,000个token的上下文窗口,训练数据截止到2021年9月,防止信息泄露。通过系统提示让LLM扮演金融分析师角色,提供清晰的功能框架。定义股票评级的规模和术语,提供财务基本面的详细描述。采用Chain-of-Thought和few-shot提示方法,鼓励LLM进行推理并提供输出示例。以结构化格式提供公司特定输入数据,文本信息在前,数值数据在表格中。进行基本的CoVE(验证链)以确保预测日期的正确性。

问题建模

公司评级 𝑐 (𝑡, 𝑝) 预测未来 𝑝 个月的表现,评级值为 {-2, -1, 0, 1, 2},分别代表强卖、适度卖、持有、适度买、强买。

评级准确性通过评估公司股票的未来回报来判断,常用方法包括分析评级发布后股票表现和不同评级水平的公司回报。计算公司回报 𝑅 𝑐 (𝑡, 𝑝) 和行业相对回报 𝑅 𝑐 , 𝑠 (𝑡, 𝑝),并将公司回报分为五个分位数。通过比较公司回报的分位数与评级进行正确性判断,定义指标函数来评估评级的准确性。

实验

数据

分析对象为2022年1月至2024年6月的美国标准普尔500指数成分股。

在这里插入图片描述

分析师股票评级。收集了126家公司的45,000条分析师评级数据。评级分布:维持(75.90%)、重申(7.25%)、下调(6.27%)、上调(5.68%)、启动(4.89%)。前五大评级公司(摩根士丹利、巴克莱、富国银行、花旗、RBC资本)占总评级的31.61%。数据包括评级公司、评级日期和评级内容,但缺少目标日期和目标价格。

财经新闻摘要。收集S&P500公司新闻,使用命名实体识别(NER)过滤无关内容,平均每月每只股票有39.63篇文章,187K字符,40K词,74.70个URL,34.40篇缺失文章。使用GPT-4-32k生成公司和行业的新闻摘要,突出关键事件和趋势,设计了两种用户提示。利用GPT-4-32k对新闻摘要进行情感分析,评分范围为-5到5,分为公司和行业两种评分模板。收集S&P500公司每日股价,计算技术指标,包括当前价格、52周价格区间、90天波动率及1、3、12个月的表现指标。

财务基本面。从2022年1月到2024年3月,使用finagg API聚合公司季度财务数据(10-Q和10-K文件)。每个预测日期使用过去4个季度的财务数据。这些文件由公司提交给美国证券交易委员会(SEC),包含资产负债表、损益表和现金流量表的详细信息。

实验设置

使用GPT-4-32k模型进行实验,生成2022年1月至2024年6月间S&P500公司股票评级。每月初为每家公司预测未来1、3、6、12、18个月的评级,评级选项包括强卖、适度卖、持有、适度买和强买。实验涉及约5个时间范围、30个起始日期和500家公司,旨在评估模型在不同时间段的预测表现。

采用五种方法:Vanilla、News、Sentiment、Fundamentals、Fundamentals + Sentiment,输入数据有所不同。Vanilla方法提供公司历史数据(过去1、3、12个月的收益、当前股价、52周价格范围和90天波动率),共13个数据点,作为基线。

新闻。通过包含新闻数据增强Vanilla方法,提供上月公司和行业新闻摘要,LLM需评估情感(正面、负面、中性或混合),并在技术指标前提供摘要以提高性能。

情感分析。与Vanilla方法相似,但提供公司和行业新闻的预计算情感分数(-5到5),用于指导LLM的预测。

基本面数据。在Vanilla提示中增加季度财务基本面数据,提供详细指标描述,LLM需分析这些数据。

基本面+情感。在基本面方法基础上,加入情感分数,LLM需结合基本面数据和情感分数进行推荐。

评估

评估评级基于1、3、6、12和18个月的前向收益,包括市场相对和行业相对收益。评级被视为正确,如果真实前向收益的分位数与评级的排名一致。例如,若某公司被评为“强买入”,但其6个月前向收益在底部分位,则评级显著错误。计算平均绝对误差(MAE),考虑市场相对和行业相对收益,适合序数分类。MAE惩罚离真实值更远的评级,准确率则对所有错误一视同仁。计算复合误差,平均市场相对收益的MAE,关注3、6、12个月的时间段。分析师评级来自华尔街的真实评级,与LLM预测进行比较。

结果

研究了市场相对MAE和行业相对MAE的月度数据。

传统分析师 vs 大模型

分析师的买入评级占比高于95%,卖出评级不足5%。大模型方法的MAE为1.447,优于分析师预测的1.570,表明LLM预测更准确。大模型方法的标准差为0.745,高于分析师的0.637,显示出一致性较差。行业回报的MAE和标准差趋势与上述相同。随着前瞻期增加,分析师预测的误差减少,18个月期表现稍好;而大模型实验的误差则增加。

新闻:总结 vs 情绪

新闻总结实验的 Return MAE 为 1.491,标准差 0.738,表现优于其他实验。新闻情绪实验的 Return MAE 为 1.496,标准差 0.752,未显著提升性能。两者均未超越大模型实验,且包含摘要与仅包含情感评分的表现相似。Sector Relative Return MAE 的趋势与 Return MAE 一致。新闻情绪在1个月内表现最佳,可能因提供了更清晰的公司近期表现。

基本面 vs 基本面+情绪

基本面+情绪实验的Return MAE为1.417,预测最准确;基本面实验的Return MAE为1.421,标准差为0.732,预测更一致。两个实验在3、6、12个月期间表现最佳,特别是短期内,结合基本面和情绪得分有效。在18个月期间,基本面+情绪实验的MAE较高,表明长期可能出现信号冲突。两个模型均优于大模型实验和分析师预测,强调基本面的重要性。包含公司和行业情绪而不使用新闻摘要数据,提高了预测准确性,减少了复杂性和噪音。

结果总结

LLM在短期预测中表现较好,长期预测误差增加。新闻相关实验(尤其是新闻摘要)在短期内表现最佳,因新闻的即时影响。新闻情感分析实验与新闻摘要实验表现相似,情感分析未显著提升性能。基本面和基本面+情感实验在中期表现良好。分析师预测在长期预测中表现最佳。

新闻的功效

通过计算Spearman相关性和生成热图,分析新闻摘要与新闻情感对结果的影响。在新闻实验中,LLM对公司和行业新闻摘要进行评分,然后预测股票评级。在情感实验中,使用情感评分替代新闻摘要进行推理。新闻摘要在不同月份间存在相关性,尤其是接近评级的时期。

LLM评级与前期预测相关,使用新闻数据导致模型偏向于更积极的评级。LLM评级与新闻摘要的情感评分呈强正相关,积极情感导致更有利的评级。情感影响导致评级分布中积极评级增加,降低了准确性。

挑战和限制

研究评估方法基于固定时期的前向收益和收益分位数,可能受市场条件影响。评估准确性还受市场情绪、公司新闻和经济指标等定性因素影响。缺乏具体评级目标日期,导致评估时间跨度不一。未考虑分析师评估中的重要因素,如未来表现预测、财报、投资者情绪等。模型未测试处理大量信息的能力,而分析师通常会审查这些信息。

总结

本研究探讨大型语言模型(LLMs)在预测股票评级中的潜力。整合多种信息源,包括基本财务指标、技术指标、财经新闻摘要、新闻情感及财务基本面。评估LLMs在该任务中的表现,分析不同数据源对预测能力的影响。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值