第三课 week3
文章目录
1.1 强化学习
1.2 示例:火星探测器
1.3 强化学习的回报
折扣因子→回报越早出现越好。
1.4 决策
1.5 马尔可夫决策过程MDP
未来取决于当前状态,而不取决于在达到当前状态之前可能发生的任何事情。
2.1 状态-动作价值函数
Q-function
2.2 贝尔曼方程
2.3 随机马尔可夫过程
1)随机环境
当你采取行动时,结果不一定完全可靠。如火星探测器向左行驶会遇到岩石滑坡,在实践中,如刮风、偏离航线、车轮打滑等问题,机器人并不是总能完全按照指令去执行。
当强化学习问题是随机的时,我们会看到的不是一个奖励序列,而是一系列不同的奖励序列。在随机强化学习问题中,我们感兴趣的不是最大回报,因为那是一个随机数,我们感兴趣的是最大化折扣奖励总和的平均值。
3.1 连续空间应用
3.2 登月器
3.3 学习状态值函数
Deep Q-Network(DQN)
3.4 算法改进:改进的神经网络架构
对于每一个状态 s s s 都需要分别进行四次推理来计算四个 Q Q Q,以便选择给我们最大 Q Q Q 值的动作 a a a。这种方法效率低,训练神经网络同时输出这四个值会更有效。
3.5 算法改进:ε-贪婪策略
由于随机初始化,如果神经网络以某种方式陷入某些事情是坏主意的想法,尽管只是偶然,如果选择Option 1,这意味着它永远不会尝试这些操作并发现采取该行动可能实际上是一个好主意,例如有时启动主推进器。
在Option 2中,我们有很小的概率尝试不同操作,这样神经网络就可以学会客服它自己的先入之见,即什么可能是坏主意,但事实并非如此。
3.6 算法改进:小批量和软更新
平均而言,小批量梯度下降会趋于全局最小值,但是过程有一些不可靠和嘈杂,但每次迭代计算的成本要低得多,因此该方法在非常大的训练集上被证明是一个更快的方法。