第三节:强化学习中的套路

7 篇文章 0 订阅 ¥299.90 ¥399.90

本专栏是强化学习运用在买卖股票之上的入门学习内容。
主要解决强化学习代码落地和代码实践,不需要学习相关数学原理,直观简单的带领读者入门强化学习炒股。
查看本专栏完整内容,请访问:https://blog.csdn.net/windanchaos/category_12391143.html
本文发布地址:https://blog.csdn.net/windanchaos/article/details/132190515

本文作为理论基础、套路和方法论,了解即可。

使用强化学习时的一般套路

  • 了解强化学习和所使用的开发框架
  • 如果需要,进行定量实验和超参数调整
  • 使用单独的测试环境评估性能

首先要对强化学习有一个基本了解。这个在各类视频网站、书籍当中都有很多的资料。不是本专栏的重点。

其次,要选择使用一个强化学习的开发框架,并需要学习框架本身的基本使用。

强化学习在很多方面与其他机器学习方法不同。用于训练代理的数据是通过代理本身与环境的交互来收集的(例如,与拥有固定数据集的监督学习相比)。这种依赖性可能会导致恶性循环:如果代理收集质量差的数据(例如,没有奖励的轨迹),那么它就不会改进并继续按预期进行学习。

除其他因素外,这一因素解释了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

windanchaos

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值