本专栏是强化学习运用在买卖股票之上的入门学习内容。
主要解决强化学习代码落地和代码实践,不需要学习相关数学原理,直观简单的带领读者入门强化学习炒股。
查看本专栏完整内容,请访问:https://blog.csdn.net/windanchaos/category_12391143.html
本文发布地址:https://blog.csdn.net/windanchaos/article/details/132190515
本文作为理论基础、套路和方法论,了解即可。
使用强化学习时的一般套路
- 了解强化学习和所使用的开发框架
- 如果需要,进行定量实验和超参数调整
- 使用单独的测试环境评估性能
首先要对强化学习有一个基本了解。这个在各类视频网站、书籍当中都有很多的资料。不是本专栏的重点。
其次,要选择使用一个强化学习的开发框架,并需要学习框架本身的基本使用。
强化学习在很多方面与其他机器学习方法不同。用于训练代理的数据是通过代理本身与环境的交互来收集的(例如,与拥有固定数据集的监督学习相比)。这种依赖性可能会导致恶性循环:如果代理收集质量差的数据(例如,没有奖励的轨迹),那么它就不会改进并继续按预期进行学习。
除其他因素外,这一因素解释了