本专栏是强化学习运用在买卖股票之上的入门学习内容。
主要解决强化学习代码落地和代码实践,不需要学习相关数学原理,直观简单的带领读者入门强化学习炒股。
查看本专栏完整内容,请访问:https://blog.csdn.net/windanchaos/category_12391143.html
本文发布地址:https://blog.csdn.net/windanchaos/article/details/132306740
优化
回顾上一节内容,我们已知,环境存在以下一些问题
- 单只股票不具备普适性
- 环境返回的数据没有归一化处理,普适性大大降低
- award的计算可能并不科学,有很大的优化空间
- 训练集和验证集没有分开
- 机器人极容易陷入不作为,所以奖励函数和股价买卖可能需要分开
那么,我们针对这些问题,尝试进行优化,优化的方向:
- 加入多只股票,每次随机返回股票,共享index进度(本文未添加该逻辑)
- observation(观察值)返回值的归一化处理
- award的计算进行优化
- 训练集和验证集分开
- award的计算进行优化后,单独计算最终收益
源码
经过多次调试,设置奖励的核心一定搞清楚一个核心原则:”奖励什么,惩罚什么”,而不是单纯的使用每次买卖得到获利数字来作为奖励值,亏钱了但是卖出是对的对你要鼓励,挣钱了但是卖错了就不能鼓励。反之亦