基于方差有界的强化学习算法，挖掘稳定 Alpha 因子公式

老余捞鱼

于 2024-09-30 09:00:00 发布

阅读量749

点赞数 13

分类专栏： AI探讨与学习 AI顾投高级策略文章标签：算法 python 人工智能

本文链接：https://blog.csdn.net/weixin_70955880/article/details/142143820

版权

作者：老余捞鱼

原创不易，转载请标明出处及原作者。

写在前面的话：
本文介绍了一种名为QuantFactor REINFORCE（QFR）的新型基于强化学习的算法，旨在挖掘具有稳定性的公式化Alpha因子。该算法通过改进传统的REINFORCE算法，引入了新的基线和奖励机制，以降低算法在训练过程中的高方差问题，并提高因子对市场波动的适应性。论文通过在多个真实资产数据集上的实验，证明了QFR算法在提高资产回报相关性以及获取超额回报方面，相较于现有挖掘方法具有显著优势。

第1章引言

本文聚焦于计算金融领域中Alpha因子的挖掘，Alpha因子是从历史金融市场数据中提取的信号，用以预测资产的未来回报并寻求超越市场平均水平的利润。本章明确了Alpha因子的两种表现形式：深度模型和公式形式。深度模型虽然表达能力强，但因为其“黑箱”特性，在风险敏感的市场中难以被投资者接受。相比之下，公式形式的Alpha因子因为其更好的可解释性而受到市场参与者的青睐。作者还探讨了现有的Alpha因子挖掘方法，包括基于树的模型和遗传编程等。这些方法虽然在一定程度上能够挖掘出有效的Alpha因子，但它们在处理复杂的非线性关系和高维数据时可能会遇到性能瓶颈，并且计算成本较高。此外，这些方法在探索大规模表达式的搜索空间时常常遇到困难。作者指出了最近提出的一个有前景的框架，该框架使用深度强化学习来生成公式化的Alpha因子，并且迅速获得了学术界和工业界的研究关注。这一框架通过将Alpha因子的生成过程模拟为马尔可夫决策过程（MDPs），并直接训练策略以生成一组协作的公式化Alpha因子，旨在克服传统树模型和遗传编程的局限性。

第2章相关工作

A. 自动挖掘Alpha因子

Alpha因子通常以深度模型或公式的形式表现。深度模型形式的Alpha因子通过监督学习进行训练，利用多层感知器（MLP）、长短期记忆网络（LSTM）和Transformer等序列模型从资产的历史数据中提取特征。强化学习在计算金融和金融科技领域受到关注，尤其在Alpha因子挖掘、投资组合优化和风险管理设计中。这些方法通过将市场特征建模为状态，将买卖订单建模为动作，将盈亏建模为奖励，训练代表Alpha因子的深度策略模型。另一方面，公式形式的Alpha因子因其更好的可解释性而受到市场参与者的偏好。过去，这些公式化Alpha因子通常由人类专家使用他们的领域知识和经验构建，通常体现了清晰的经济原理。然而，依赖人类专家的Alpha因子挖掘过程存在诸如主观性强、耗时、风险控制不足和成本高等缺点。为了解决这些问题，提出了自动挖掘公式化Alpha因子的算法，如GBDT、XGBoost、LightGBM等树模型，以及遗传编程（GP）等启发式算法。这些算法能够快速发现大量新的公式化Alpha因子，而无需人类专家的领域知识或经验，它们在性能上与更复杂的基于深度学习的Alpha因子相当，同时保持了相对较高的可解释性。