交易中的强化学习

什么是强化学习?

“像人类一样,我们的机器自己学习如何实现成功的策略,从而获得最大的长期回报。这种通过对正确和错误的学习,进行奖惩的范式,被称为强化学习(RL)--谷歌Deepmind”

在金融市场上,我们使用强化学习算法的目的,是通过观察交易行为的回报情况,从而学会如何获得最大的回报交易策略。

如何在交易中应用强化学习?

在交易领域我们追求的无非是利润最大化。因此强化学习算法应用到交易领域的目的也是,学习最大化长期回报的策略。

例如,从2018年末到2020年初,Amazon的股价几乎持平。正常思维会认为mean-reverting策略在这里更有效。

但从2020年初,Amazon股价回升,出现趋势。如果2020年初开始,采用mean-reverting策略将导致亏损。从上一年的mean-reverting市况来看,大多数交易者在市场开始趋势化时都会退出市场。

但如果你做多并持有股票,从长远来看这种策略是有益的。在这种情况下,为了将来的长期收益而放弃你当下的回报。

这种行为类似于AlphaZero[实现“将死”这个目标,游戏时必须遭受失子的损失]。

强化学习算法通过从2017年和2018年Amazon股价变动学习到的模型,并且更宏观的考虑“思考”,模型会因此持有Amazon的股票,从而在未来获得巨额利润。

强化学习与传统的机器学习算法有何不同?

正如在上面的示例中所看到的,我们不必在强化学习算法的每个时间点都提供标签。强化算法首先通过试错学习交易,并在交易结束时计算获利回报。

然后优化策略,使回报最大化。这与传统的ML算法不同,后者需要在每个时间点或按频率添加标签。

强化学习的组成部分

强化学习主要有以下部分组成:

  • 行动:行动就是RL算法要解决的问题,对应到交易市场就是买、卖。
  • 策略:1、exploration policy:通过随机学习,RL算法学会要采取的行动。2、exploitation policy:RL算法学习过去的经验,并采取行动,从而最大化长期回报。
  • 状态:增强学习需要有意义的信息,才能采取行动。这里有意义的信息就是状态。例如,你要决定是买入还是卖出微软股票,那怎样的信息才是有用的?可能历史价格数据、基本面数据等等所有这些数据汇总在一起就是需要的状态。
  • 奖励:奖励可以被认为是希望通过强化系统实现的最终目标。例如,你的目标是建立一个可盈利的交易系统,这时的奖励就是利润。定义奖励函数对于一个强化学习系统是极其重要的,以下指标可用于定义奖励:Profit per tick、Sharpe Ratio、Profit per trading
  • 环境:强化学习系统观察状态的一个“世界”,当RL系统要采取行动,环境会执行相关动作后,计算奖励并且进入入下一状态。可以把环境理解为一局象棋比赛或交易微软股票的过程。
  • 代理:RL模型的代理是接收输入状态(特征)并且决定要采取的行动。例如RL代理把RSI和过去10天的回报作为输入,然后告诉你是否要继续持有微软股票还是要卖出。下面结合图片简要对代理的工作原理介绍。

步骤1:

    • 状态&行动:假设微软的股票在当日收盘价是92美元,基于状态(RSI和10天回报),代理给出买入信号。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值