第六节:第二版environment

7 篇文章 0 订阅 ¥299.90 ¥399.90

本专栏是强化学习运用在买卖股票之上的入门学习内容。
主要解决强化学习代码落地和代码实践,不需要学习相关数学原理,直观简单的带领读者入门强化学习炒股。
查看本专栏完整内容,请访问:https://blog.csdn.net/windanchaos/category_12391143.html
本文发布地址:https://blog.csdn.net/windanchaos/article/details/132306740

优化

回顾上一节内容,我们已知,环境存在以下一些问题

  • 单只股票不具备普适性
  • 环境返回的数据没有归一化处理,普适性大大降低
  • award的计算可能并不科学,有很大的优化空间
  • 训练集和验证集没有分开
  • 机器人极容易陷入不作为,所以奖励函数和股价买卖可能需要分开

那么,我们针对这些问题,尝试进行优化,优化的方向:

  • 加入多只股票,每次随机返回股票,共享index进度(本文未添加该逻辑
  • observation(观察值)返回值的归一化处理
  • award的计算进行优化
  • 训练集和验证集分开
  • award的计算进行优化后,单独计算最终收益

源码

经过多次调试,设置奖励的核心一定搞清楚一个核心原则:”奖励什么,惩罚什么”,而不是单纯的使用每次买卖得到获利数字来作为奖励值,亏钱了但是卖出是对的对你要鼓励,挣钱了但是卖错了就不能鼓励。反之亦

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

windanchaos

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值