首个金融交易的多模态基础代理:工具增强、多样化和通用性

 人工智能咨询培训老师叶梓 转载标明出处

金融市场对经济稳定至关重要,它们通过促进资本配置和风险管理来发挥作用。技术交易系统通过实现高效交易来增强这些市场。然而,基于规则的交易系统往往缺乏灵活性,难以适应市场波动,常常在不断变化的市场中表现不佳。基于强化学习(RL)的系统虽然表现出更强的适应性,但它们在需要大量训练数据和决策过程不透明等方面也面临重大障碍。而且它们在跨不同市场条件泛化方面存在困难,对市场噪音敏感,并且常常无法将新闻和报告等多模态市场情报整合到其分析中。金融交易领域需要更先进的机器学习方法来应对复杂的市场动态,寻求超越基于规则和RL方法的局限性。为了解决这些问题,南洋理工大学和浙江大学的研究团队提出了FinAgent,这是一个为金融交易设计的多模态基础代理,具有工具增强功能。

金融交易任务涉及顺序做出投资决策(例如,买卖股票)以在一定的风险容忍度下最大化总利润。我们将此问题表述为一个经典的强化学习场景下的马尔可夫决策过程(MDP),其中代理(投资者)与环境(金融市场)交互,以获得奖励(利润)。在这个过程中,代理需要根据市场状态、可采取的动作、状态转移概率、即时奖励以及折扣因子来决定其策略。

FinAgent框架的构建旨在解决这些问题,并提供一个全面的解决方案。FinAgent框架由五个核心模块组成,每个模块都有其独特的功能和责任:市场情报模块;记忆模块;低级反思模块;高级反思模块;工具增强的决策模块。

FinAgent的整体架构图,包括市场情报、记忆模块、低级和高级反思模块以及决策模块的顺序执行流程
详细展示了FinAgent框架的五个核心模块,包括市场情报模块、记忆模块、低级反思模块、高级反思模块和工具辅助的决策制定模块

市场情报模块

市场情报模块是FinAgent的核心组成部分,负责收集、整合、总结和分析市场信息。这包括每日的股票新闻、价格更新、财务报告以及市场情绪等。该模块的目标是评估市场情报对资产价格未来走势的影响,并提供市场趋势的详细总结,帮助交易者做出更明智的决策。该模块还包括对历史数据的检索和总结,以便从过去的市场情报中提取关键洞察,辅助当前的交易决策。

记忆模块

记忆模块对于LLM代理来说至关重要,它支持对大量文本的处理、上下文的理解,确保对话的连贯性,并提高代理的理解和逻辑能力。在金融交易领域,记忆模块使代理能够利用市场新闻、财务报告和相关信息来增强市场预测能力。通过分析历史数据和当前事件,理解它们对市场趋势和资产价格的潜在影响,多模态LLM代理可以构建更准确的市场模型,有效支持交易决策。

反思模块

反思模块模仿人类决策过程中的认知学习过程。该模块分为低级反思和高级反思,各自服务于不同的目的,以增强代理的交易决策。低级反思模块专注于分析市场情报、K线图和技术指标与实际价格变动之间的联系。而高级反思模块则审视过去的交易决策,跟踪代理的行为和随后的价格变动,从过去的成功或错误中学习。

低级反思和高级反思之间的差异,包括目标、视觉数据、功能等

工具增强的决策模块

决策模块将市场情报摘要、价格变动分析的低级反思和对过去决策的反思整合在一起,同时考虑专业投资指导和传统交易策略等增强工具。该模块分析市场情报的情绪、从价格变动中预测牛市或熊市趋势、反思学到的经验教训,并评估专业指导和传统指标。最终的交易决策——买入、卖出或持有资产——是基于这些分析的综合洞察,同时考虑当前的财务状况。

研究者们展示了FinAgent在金融交易任务中的实验结果和性能评估。实验使用了六个真实世界的数据集,包括来自美国股市的五个数据集和六个真实世界的数据集,包括来自美国股市的五个数据集和一种加密货币。

用于评估FinAgent的六个真实世界数据集的统计信息,包括交易日期、资产价格、视觉数据、资产新闻和专家指导

FinAgent和基线模型的比较基于六个财务指标,包括:

  • 年度回报率(ARR):衡量年化平均回报率。

  • 夏普比率(SR)、ARR):衡量年化平均回报率。

  • 夏普比率(SR)、卡玛比率(CR)、索提诺比率(SOR):这三个风险调整后的收益指标,用于衡量投资组合的风险调整表现。

  • 最后的收益指标,用于衡量投资组合的风险调整表现。

  • 最大回撤(MDD)和波动率(VOL):这两个风险指标,用于衡量投资组合的风险水平。

FinAgent的交易性能与四种lines(基线) FinAgent的交易性能与四种广泛接受的传统基于规则的交易策略(买入并持有、MACD、KDJ与RSI、ZMR)和五种先进算法进行了比较。这些先进算法包括SAC、PPO和DQN,它们是采用。这些先进算法包括SAC、PPO和DQN,它们是采用深度强化学习方法的模型,以及基于LLM的FinGPT和FinMem。

尽管FinAgent的训练和推理可以在没有GPU的情况下完成,但为了基准测试,和推理可以在没有GPU的情况下完成,研究者们使用了单个NVIDIA RTX A6000 GPU。为了确保公平比较,所有基准测试都在相同的RL环境中进行训练和评估。FinAgent的所有相关实验都包含了进行训练和评估。FinAgent的所有相关实验都包含了多样化检索,除非特别说明。

FinAgent与其他基线方法在所有资产上随时间的性能比较
所有方法在六个盈利指标上的性能比较

与基线方法的比较(RQ1)。研究者根据6个财务指标比较了FinAgent与9种基线方法。表4和图3展示了本方法在盈利能力方面显著优于现有的基线方法,并在该领域设立了新的基准。FinAgent在五个股票上的表现,以ARR%和SR衡量,与表现最佳的基线相比,分别提高了至少10%和19%。值得注意的是,它在TSLA数据集上的表现更加突出,分别提高了84%和118%,显著优于所有其他基线方法。

在所有数据集上,FinAgent是唯一一种在盈利能力方面始终优于更广泛市场的方法。相比之下,FinMem在AMZN数据集上表现不佳,其ARR%为40%,低于市场买入并持有(B&H)策略的42%。这突显了FinAgent与其他基线相比的优越稳定性和鲁棒性。还可以观察到,基于规则的方法在控制风险方面表现最佳,但在捕捉回报方面并不突出。这是因为基于规则的模型方法对数据中的异常值和噪音具有鲁棒性,因此可以降低决策风险。值得注意的是,高回报通常伴随着高风险。因此,FinAgent在风险控制上略有妥协。这一结果与实验选择的投资者偏好——激进交易者——有关。因此FinAgent可以稍微增加风险以大幅提高回报。

研究者们还评估了市场智能(Market Intelligence, M)、低级反思(Low-level Reflection, L)、高级反思(High-level Reflection, H)和增强工具(Tool-Augmented, T)各个组件的有效性。通过逐步添加或移除这些组件,研究者们观察了它们对FinAgent性能的具体影响。

在不同组件上进行了消融研究,展示了市场情报、低级反思、高级反思和增强工具的有效性

在表5中,研究者研究了市场情报(M)、低级反思(L)、高级反思(H)和增强工具(T)的有效性。与仅使用M和ML相比,整合低级反思模块在TSLA和ETHUSD中将ARR%提高了45%至101%,并将风险降低了14%至44%。将ML和MLH进行比较,增加高级反思模块显著提高了ARR%和SR,同时显著降低了风险。这种改进的代价是TSLA的MDD%略有上升7%。与MLH和MLHT相比,股票盈利能力有轻微提高。然而,引入专门针对股票的基于规则的方法作为辅助代理,ETH加密货币的性能下降了20%以上。

虽然将辅助代理添加到股票投资中可以提高利润,但它会导致加密货币的性能显著下降。因此研究者进行了一个实验,决策仅由增强工具(如作为辅助代理的基于规则的方法)做出。在该实验中,各种辅助代理提供了决策及其解释。这些输入直接集成到FinAgent的决策模块中,而不涉及最终决策过程中其他模块的参与。如表4和表5所示,仅使用T方法的16% ARR%与ETHUSD的29% ARR%的B&H形成鲜明对比,突出了股票特定基于规则的方法对加密货币的低效性,并表明引入FinAgent显著影响性能。这表明投资者不应不加选择地为投资支持添加辅助代理。相反,他们必须仔细选择与市场特征相匹配的代理,以避免对性能产生不利影响。

FinAgent使用多样化检索与不使用时在AAPL上的性能对比(图4a),以及通过t-SNE可视化展示多样化检索到的市场情报的LLM提取嵌入(图4b)

在多样化检索的有效性(RQ4)实验中,如图4(a)所示,研究者比较了AAPL上有无多样化检索的FinAgent的性能,并发现使用多样化检索可以显著提高ARR和SR。如图4(b)所示,研究者从验证集的日常中提取了AAPL多样化检索到的不同类型市场情报,并在相同类型下过滤出具有相同内容的个体。研究者对其LLM提取的嵌入进行了t-SNE可视化,可以发现LLM提取的嵌入在不同检索类型之间有明显的区别,这证明了方法的有效性。

FinAgent作为一个多模态代理,整合了文本和视觉数据,使市场动态和历史交易行为的全面理解成为可能。它旨在独立利用辅助工具,对不同时间尺度的详细市场数据进行分析。凭借其多视角和多样化的检索方法,FinAgent有效地识别了当前市场条件与过去市场模式和趋势之间的关联,并将市场信息整合以做出最终有效的决策。未来的研究方向将应用FinAgent到其他金融任务中,例如投资组合管理,其中LLM用于根据观察到的市场情报对每只股票进行排名,并进行股票选择。

论文链接:https://arxiv.org/abs/2402.18485

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值