作者:老余捞鱼
原创不易,转载请标明出处及原作者。
写在前面的话:
本研究提出基于强化学习的高风险环境投资组合管理模型,采用新环境公式和基于利润损失的奖励函数,用 Soft Actor-Critic 代理和卷积神经网络实现,管理 12 种加密资产投资组合并在 Binance 永续期货市场测试。在两个 16 个月不同市场波动时期表现出色,高波动性下实现更高回报风险比和稳健盈利能力,证实模型在利用市场动态和管理波动环境风险方面的有效性。
一、简介
传统的机器学习模型往往依赖于价格趋势的预测,而强化学习模型则能够将预测和权重管理融合为一个统一的过程,从而优化投资组合的表现。本文提出了一种基于收益和损失的奖励函数的环境形式,并采用了Soft Actor-Critic代理和卷积神经网络与多头注意力机制的架构,以提高模型的风险管理和资本优化能力。本文还介绍了在Binance永续期货市场上使用多样化的12种加密资产组成的投资组合作为强化学习环境的实现方法,并对测试结果进行了分析。
二、相关工作
投资组合管理问题的数学建模方法,包括单期投资组合优化模型和多期投资组合优化模型。单期模型采用静态方法,在投资期开始时优化投资组合权重,但常被批评过于依赖历史数据和过于简化假设。多期模型允许周期性重新评估和调整投资组合权重,采用动态规划、随机规划和随机动态规划等方法寻找最优投资组合权重。其中,基于强化学习的投资组合管理模型应用广泛,包括代理、环境、动作、状态和奖励函数等五个关键元素,以优化权重优化为重点。代理通常采用神经网络实现策略,学习算法包括Q-learning、DQN、DDQN、DPG、DDPG和A2C等。最近的研究还关注了注意力机制和定制化学习算法。
本文综述了强化学习在投资组合管理中的应用。研究者们通过设计环境和奖励函数来优化投资组合权重,其中离散和连续的权重确定方法各有优缺点。数据预处理和技术指标的应用可以提高模型性能。奖励函数通常包括投资组合回报率、夏普比率和利润等。然而,现有研究忽略了负权重和借贷的影响,需要重新设计环境和奖励函数来更好地管理风险和资本。
三、方法
3.1 强化学习
强化学习可以用元组(S, A, R a , P a , γ)来描述,其中S表示状态表示集合,A表示代理可用的行动集合,R a 表示由于行动a而转移到新状态后立即获得的奖励,P a 表示状态转移概率,γ表示折扣因子,代理的目标是找到最优策略,将状态映射到行动以最大化累积折扣奖