LLM时序数据预测论文阅读笔记(金融领域)

Temporal Data Meets LLM - Explainable Financial Time Series Forecasting

论文地址:https://arxiv.org/abs/2209.05479

文章摘要:

该文章利用LLM(大语言模型)进行可解释的金融时间序列预测。专注于NASDAQ-100股票数据集,并且利用公开的历史股票价格、公司信息数据、最近的金融新闻,对公开的LLAMA-13B模型进行基于指令的微调。通过性能对比后,发现微调后LLM可以理解指令并生成可解释的预测并实现合理的性能,同时如果对LLM加以COT方法指导,效果将会更好。

This paper presents a novel study on harnessing Large Language Models’ (LLMs) outstanding knowledge and reasoning abilities for explainable financial time series forecasting. The application of machine learning models to financial time series comes with several challenges, including the difficulty in cross-sequence reasoning and inference, the hurdle of incorporating multi-modal signals from historical news, financial knowledge graphs, etc., and the issue of interpreting and explaining the model results. In this paper, we focus on NASDAQ-100 stocks, making use of publicly accessible historical stock price data, company metadata, and historical economic/financial news. We conduct experiments to illustrate the potential of LLMs in offering a unified solution to the aforementioned challenges. Our experiments include trying zero-shot/fewshot inference with GPT-4 and instruction-based fine-tuning with a public LLM model Open LLaMA. We demonstrate our approach outperforms a few baselines, including the widely applied classic ARMA-GARCH model and a gradient-boosting tree model. Through the performance comparison results and a few examples, we find LLMs can make a well-thought decision by reasoning over information from both textual news and price time series and extracting insights, leveraging cross-sequence information, and utilizing the inherent knowledge embedded within the LLM. Additionally, we show that a publicly available LLM such as Open-LLaMA, after fine-tuning, can comprehend the instruction to generate explainable forecasts and achieve reasonable performance, albeit relatively inferior in comparison to GPT-4.


相关工作:

本文也提到,当今LLM主要为transformer架构,并且主要应用在NLP和CV领域,同时对于时序数据而言,LLM难以泛化,难以处理各领域的下游任务,时序数据LLM也缺少一种公开的大量数据组成的数据集。因此,需要更关注于数据预处理部分,利用结构化提示微调,指导LLM具备处理时序数据预测的功能。同时,文章还提到,如果采用 Chain-of-Thought 的方法,将会提高模型在其他研究中的有效性。

论文方法:

  1. 数据处理, 将数值今早归一化处理成百分比时序数据,该周和上周之间的价格变化表示: “D5+”表示价格下降超过 5%,“Daugh”表示价格下降超过 5%,U5+”表示价格上升超过 5%
  2. 生成公司股价信息,利用GPT-4生成影响公司股价的公司描述,一般分为正或负因素。再利用GPT-4提取关键字,浓缩内容。输出如下:

Positive Factors:宏观经济:经济增长、消费者支出增加业务:销售强劲、扩展到新市场、积极收益报告、战略收购技术:创新、新产品启动、人工智能和增强现实品牌的进步:强大的全球品牌、忠诚的客户基础法律/监管:有利的政策变化、成功的专利申请

Negative Factors:
宏观经济:膨胀、经济衰退、贸易限制业务:销售减少、盈余报告差、投资技术缺乏:创新速度慢、产品启动延迟品牌:品牌声誉受损、客户忠诚度法律/监管的损失:反垄断调查、不利的政策变化、专利纠纷环境:未能满足可持续性目标、负面环境影响

  1. 获取新闻数据,调用Google API 获取该股票每周前5个新闻故事,利用GPT-4声称摘要,提取关键字。同时应用相同方法,获取每周宏观经济和金融状况的前 5 个新闻故事。其中,为了减少输出的大小,会利用GPT-4进一步生成摘要,提取关键字。

总结:Apple Inc 在某些公司部门发布分叉并扩大成本削减努力,将其同行加入流线运营中。该公司建议放弃 4 月的奖金或促销,支付仅发生在 10 月。苹果还限制了招聘,在员工离开后留下额外的职位。这是触发对员工之间缩小尺寸的恐惧。

关键词:苹果、奖金、招聘、成本削减、促销、缩小、员工

文章创建了一个包含 30K 每周预测的数据集加上 7K 每月预测,该数据集源自 2017 年 6 月到 2022 年 6 月的 5 年历史数据。对于每个微调示例,我们使用 GPT-4 将完整的 历史新闻摘要、关键字,压缩为单个更简洁的摘要、关键字对。同时,提示的“Company Profile”和“Forecast example”部分也分别压缩成更简洁的摘要段落。

实验部分:

  • 微调数据包含 2017 年 6 月 12 日到 2022 年 6 月 5 日的 5 年数据。该数据用于训练基线模型,Open LLAMA 13B 模型的微调。
  • 评估数据有 52 周,从 2022 年 6 月 06 到 6 月 04 2023 日。基线模型的评估、GPT-4 的零样本/少样本推理实验以及微调 Open LLAMA 13B 模型的评估基于该时间窗口中的数据。

我们的结果表明 LLM 在金融时间序列预测中的有效性,“带有 COT 的 GPT-4 少样本”在预测准确性和解释质量方面都始终显示出最佳性能。结果还表明,Chain-of-Thoughts (COT) 的技术不断提高性能,以及使用 Open LLAMA 等公开可用的 LLM(如 Open LLAMA)进行基于指令的微调的潜力,通过与 GPT-4 相比实现合理的性能通过微调COT。


Instruct-FinGPT: Financial Sentiment Analysis by Instruction Tuning of General-Purpose Large Language Models

论文地址:https://arxiv.org/abs/2306.12659

摘要:

本文章主要针对金融领域的情感分析,利用金融领域的文章、新闻、社交媒体等信息,分析出金融市场的走势。当今LLM(大语言模型)在NLP领域中取得重大成果,但是对金融领域,或是说时序数据领域方面,还是难以准确预测数值。本文介绍了一种简单而有效的指令微调方式解决这些问题。通过一小部分有监督的金融性感分析数据,转换为指令数据,并作用于LLM中,达到微调的效果。实验中发现,文章的方法要优于最先进的监督情感分析模型,以及广泛使用的 LLM,如 ChatGPT 和 LlaMA,特别是在数值理解和上下文理解

Sentiment analysis is a vital tool for uncovering insights from financial articles, news, and social media, shaping our understanding of market movements. Despite the impressive capabilities of large language models (LLMs) in financial natural language processing (NLP), they still struggle with accurately interpreting numerical values and grasping financial context, limiting their effectiveness in predicting financial sentiment. In this paper, we introduce a simple yet effective instruction tuning approach to address these issues. By transforming a small portion of supervised financial sentiment analysis data into instruction data and finetuning a general-purpose LLM with this method, we achieve remarkable advancements in financial sentiment analysis. In the experiment, our approach outperforms state-of-the-art supervised sentiment analysis models, as well as widely used LLMs like ChatGPT and LLaMAs, particularly in scenarios where numerical understanding and contextual comprehension are vital.


Introduction:

文章也提及到一些传统模型做金融情感分析的弊端,对数值不敏感、难以解释情感以及金融术语、时间依赖性、标注数据不足等问题。

对于此,文章基于对LLM指令微调以试图解决金融情感分析问题,主要研究了两个问题:

  • 如何使LLM能够解决金融情感分析中数值敏感性的问题

金融情感分析中的数值敏感问题指的是大型语言模型(LLMs)在处理金融文本时,对数值的理解和解释能力不够强。这可能导致模型在评估金融情感时,难以准确确定情感。这一挑战强调了需要改进的模型,这些模型能够在复杂的金融情感分析任务中更好地理解数值敏感性。

  • 上下文理解为什么能提高金融情感分析的准确率

在这项研究中,我们研究了两个主要研究问题:1)如何使 LLM 能够解决金融情绪分析中数值敏感性的问题。2)上下文理解在提高金融情感分析中的作用是什么?

论文方法:

  • 输入是财经新闻或标题,输出是表示积极、消极和中性情绪的整数类型标签。第一步是将这些分类数据集制定为指令格式的数据集。
  • 由于微调后的LLAMA是一个自回归模型,因此生成的结果五花八门。我们需要限制模型输出,使得模型结果的输出映射到三种情绪上,包含:“正面”、“负面”、“中性”。

在这里插入图片描述


文章提出,用LLM去处理情感分析问题结果比其他模型好,原因如下:

  • LLM由大量各领域数据集预训练而来,具备更全面的知识,能够更好的理解上下文关系
  • LLM也具备处理数值敏感性的问题,具体原因在其他文献中。

实验结果:

训练数据: 是 Twitter 金融新闻数据集 [Magic, 2022] 和 FiQA 数据集 [Maia et al., 2018] 的融合,产生了 10, 501 个样本的综合集合。

Twitter 财经新闻情感训练:该数据集是与金融部门相关的新闻推文语料库,专门用于英语。它的主要目的是在 Twitter 讨论的背景下对金融情绪进行分类。该数据集包含 9,540 个样本用于训练,每个样本由三个标签之一注释:Bearish(股票看跌)、Bullish(股票上涨) 或 Neutral(中立词汇)。

FiQA 数据集:该数据集可通过 HuggingFace 轻松访问,包括 961 个样本。每个样本都用三个标签之一进行注释:正面、中性或负面,表示相应文本中传达的情感。

测试数据: 包含四种数据集:

Twitter financial news sentiment validation (Twitter Val):从 hugging-face 中获取到2390个推特财政新闻,其中每个样本由三个标签之一注释:Bearish、Bullish 或 Neutral。

Numerical sensitivity dataset (numerical)(数值敏感性测试):从 Twitter Val 自动过滤的数据集包括 117 个样本。这些样本至少包含两个与财务指标相关的数值,没有强烈的指示词,例如“raise”、“fall”、“increase”、“reduce”。

Contextual understanding dataset (contextual)(上下文测试):从 Twitter Val 中随机选择的这个数据集包括 20 个样本。这些样本缺乏做出情感预测的基本上下文。

Financial PhraseBank (FPB) dataset(金融短语库):包括从 LexisNexis 数据库可用的金融新闻文章中随机抽取的 4,840 个样本。样本由 16 个注释者团队仔细注释,其中包含金融和商业背景,确保高质量的注释。

模型训练:

模型使用 LLAMA-7B 模型对其进行微调,并在 10 个 epoch 上执行指令调整。训练过程利用AdamW优化器,Batch_size大小为32,初始lr为1e−5,权重衰减为0.1。为了保持效率,我们设置最大Token长度为512。利用 DeepSpeed 在 8 A100 (40GB) GPU 上进行微调过程,总训练时间为 58 分钟。

在这里插入图片描述


实验结果总体表明,与 FinBERT 和 ChatGPT-4 相比,微调LLM模型对这些示例中的上下文情感有更好的理解。它成功地识别了测试数据中的负面情绪,并准确地识别了中性情绪和积极情绪。这些结果强调了上下文理解在金融情感分析中的重要性以及不同模型的性能变化,表明 LLM 的指令调整可以在少量特定于任务的数据下产生卓越的性能。

在这里插入图片描述

参考文献:

  • Temporal Data Meets LLM - Explainable Financial Time Series Forecasting
  • Instruct-FinGPT: Financial Sentiment Analysis by Instruction Tuning of General-Purpose Large Language Models
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值