【吴恩达 Machine Learning】 第三课 Week 3 学习笔记

第三课 week3

1.1 强化学习

在这里插入图片描述在这里插入图片描述

在这里插入图片描述

1.2 示例:火星探测器

在这里插入图片描述

1.3 强化学习的回报

折扣因子→回报越早出现越好。

在这里插入图片描述
在这里插入图片描述

1.4 决策

在这里插入图片描述
在这里插入图片描述

1.5 马尔可夫决策过程MDP

未来取决于当前状态,而不取决于在达到当前状态之前可能发生的任何事情。

在这里插入图片描述

在这里插入图片描述

2.1 状态-动作价值函数

Q-function

在这里插入图片描述
在这里插入图片描述

2.2 贝尔曼方程

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

2.3 随机马尔可夫过程

1)随机环境

当你采取行动时,结果不一定完全可靠。如火星探测器向左行驶会遇到岩石滑坡,在实践中,如刮风、偏离航线、车轮打滑等问题,机器人并不是总能完全按照指令去执行。

在这里插入图片描述
当强化学习问题是随机的时,我们会看到的不是一个奖励序列,而是一系列不同的奖励序列。在随机强化学习问题中,我们感兴趣的不是最大回报,因为那是一个随机数,我们感兴趣的是最大化折扣奖励总和的平均值
在这里插入图片描述
在这里插入图片描述

3.1 连续空间应用

在这里插入图片描述在这里插入图片描述

3.2 登月器

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.3 学习状态值函数

Deep Q-Network(DQN)
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

3.4 算法改进:改进的神经网络架构

对于每一个状态 s s s 都需要分别进行四次推理来计算四个 Q Q Q,以便选择给我们最大 Q Q Q 值的动作 a a a。这种方法效率低,训练神经网络同时输出这四个值会更有效。

在这里插入图片描述
在这里插入图片描述

3.5 算法改进:ε-贪婪策略

由于随机初始化,如果神经网络以某种方式陷入某些事情是坏主意的想法,尽管只是偶然,如果选择Option 1,这意味着它永远不会尝试这些操作并发现采取该行动可能实际上是一个好主意,例如有时启动主推进器。

在Option 2中,我们有很小的概率尝试不同操作,这样神经网络就可以学会客服它自己的先入之见,即什么可能是坏主意,但事实并非如此。
在这里插入图片描述

3.6 算法改进:小批量和软更新

在这里插入图片描述
在这里插入图片描述
平均而言,小批量梯度下降会趋于全局最小值,但是过程有一些不可靠和嘈杂,但每次迭代计算的成本要低得多,因此该方法在非常大的训练集上被证明是一个更快的方法。

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

3.7 强化学习的状态

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
吴恩达的机器学习系统设计选择题主要包含以下几个方面: 1. 训练集和开发/测试集:选择合适的训练集和开发/测试集对于构建有效的机器学习系统非常重要。我们需要确保训练集和开发/测试集能够代表真实的数据分布,并且在划分数据集时要考虑到数据的随机性和一致性。 2. 性能指标选择:根据具体的问题和需求,选择合适的性能指标来评估机器学习系统的表现。如分类问题可以选择准确率、精确率、召回率等指标,回归问题可以选择均方误差或相关系数等指标。 3. 偏差和方差的平衡:在机器学习系统中,我们通常会面临偏差和方差之间的权衡。通过增加模型的复杂度可以降低偏差,但容易引起方差过高;通过减小模型的复杂度可以减小方差,但容易导致偏差过高。需要根据具体情况选择适当的模型复杂度。 4. 错误分析:在构建机器学习系统时,我们需要进行错误分析来深入了解模型在不同数据集上的表现。通过错误分析,我们可以找出模型存在的问题,并采取相应的措施进行修正和优化。 5. 学习曲线:学习曲线可以帮助我们了解模型的训练过程。通过绘制训练集和开发/测试集的误差随着训练集大小变化的曲线,我们可以判断模型是否出现高偏差或高方差的情况,从而决定是否需要增加更多的训练数据或者调整模型复杂度。 吴恩达强调了以上几个方面的重要性,并提供了相应的选择题帮助我们更好地设计和调整机器学习系统,以获得更好的性能和效果。这些选择题的回答需要结合具体问题和数据情况进行分析和判断,从而做出最合理的决策。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值