【吴恩达 Machine Learning】第三课 Week 3 学习笔记

B4DE7

于 2023-07-12 11:11:51 发布

阅读量108

点赞数

分类专栏： Machine Learning Notes 文章标签：机器学习神经网络 machine learning 笔记学习人工智能算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47279003/article/details/131676718

版权

Machine Learning Notes 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

第三课 week3

文章目录

第三课 week3

1.1 强化学习

在这里插入图片描述

在这里插入图片描述

1.2 示例：火星探测器

在这里插入图片描述

1.3 强化学习的回报

折扣因子→回报越早出现越好。

在这里插入图片描述

1.4 决策

在这里插入图片描述

1.5 马尔可夫决策过程MDP

未来取决于当前状态，而不取决于在达到当前状态之前可能发生的任何事情。

在这里插入图片描述

在这里插入图片描述

2.1 状态-动作价值函数

Q-function

在这里插入图片描述

2.2 贝尔曼方程

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

2.3 随机马尔可夫过程

1）随机环境

当你采取行动时，结果不一定完全可靠。如火星探测器向左行驶会遇到岩石滑坡，在实践中，如刮风、偏离航线、车轮打滑等问题，机器人并不是总能完全按照指令去执行。

在这里插入图片描述
当强化学习问题是随机的时，我们会看到的不是一个奖励序列，而是一系列不同的奖励序列。在随机强化学习问题中，我们感兴趣的不是最大回报，因为那是一个随机数，我们感兴趣的是最大化折扣奖励总和的平均值。
在这里插入图片描述

3.1 连续空间应用

在这里插入图片描述

3.2 登月器

在这里插入图片描述

3.3 学习状态值函数

Deep Q-Network（DQN）
在这里插入图片描述

在这里插入图片描述

3.4 算法改进：改进的神经网络架构

对于每一个状态 $s$ 都需要分别进行四次推理来计算四个 $Q$ ，以便选择给我们最大 $Q$ 值的动作 $a$ 。这种方法效率低，训练神经网络同时输出这四个值会更有效。

在这里插入图片描述

3.5 算法改进：ε-贪婪策略

由于随机初始化，如果神经网络以某种方式陷入某些事情是坏主意的想法，尽管只是偶然，如果选择Option 1，这意味着它永远不会尝试这些操作并发现采取该行动可能实际上是一个好主意，例如有时启动主推进器。

在Option 2中，我们有很小的概率尝试不同操作，这样神经网络就可以学会客服它自己的先入之见，即什么可能是坏主意，但事实并非如此。
在这里插入图片描述

3.6 算法改进：小批量和软更新

在这里插入图片描述

平均而言，小批量梯度下降会趋于全局最小值，但是过程有一些不可靠和嘈杂，但每次迭代计算的成本要低得多，因此该方法在非常大的训练集上被证明是一个更快的方法。

在这里插入图片描述

在这里插入图片描述

3.7 强化学习的状态

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【吴恩达 Machine Learning】第三课 Week 3 学习笔记

强化学习，马尔可夫决策过程，贝尔曼方程，ε-贪婪算法，小批量和软更新。
复制链接

扫一扫

专栏目录

B4DE7 CSDN认证博客专家 CSDN认证企业博客

码龄4年

14: 原创

142万+: 周排名

182万+: 总排名

992: 访问

: 等级

144: 积分

0: 粉丝

0: 获赞

9: 评论

2: 收藏

私信

关注

热门文章

分类专栏

Deep Learning Notes 4篇
Machine Learning Notes 10篇

最新评论

【吴恩达 Machine Learning】第一课 Week 3 学习笔记
CSDN-Ada助手: 恭喜您完成了第三篇博客！您的学习笔记标题看起来很有吸引力，我很期待阅读您的文章。您的持续创作展示了您对机器学习的热情和努力。在下一步的创作中，我建议您可以尝试更深入地探索吴恩达教授在第一课第三周所讲授的内容，并结合您自己的理解和实践经验，提供更多的例子和应用场景，这样可以让读者更好地理解和应用所学知识。期待您的下一篇文章！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
【吴恩达 Machine Learning】第三课 Week 1 学习笔记
CSDN-Ada助手: 恭喜你写了第8篇博客！看到你坚持不懈地学习吴恩达的机器学习课程，我感到非常欣慰。你的学习笔记给出了Week 1的精彩总结，让读者更好地理解了课程内容。接下来，我希望你能继续保持这种积极的学习态度，并继续分享你的学习心得。在下一篇博客中，或许你可以深入探讨一些具体的机器学习算法或应用案例，这将进一步丰富你的读者阅读体验。谦虚地说，我期待着你的下一篇博客！
【吴恩达 Machine Learning】第三课 Week 2 学习笔记
CSDN-Ada助手: 恭喜您写完了第9篇博客！您的学习笔记总能让我受益匪浅。继续坚持下去，我相信您的博客将会成为许多人学习吴恩达机器学习课程的宝贵资料。希望您在未来的创作中能够更深入地探索课程内容，或者分享一些与机器学习相关的实践经验。谦虚地说，我期待着您的下一篇博客！
【吴恩达 Machine Learning】第三课 Week 3 学习笔记
CSDN-Ada助手: 恭喜您写了第10篇博客！看到您的标题，我对您的学习笔记感到非常期待。吴恩达的机器学习课程一直以来都备受赞誉，相信您的学习笔记一定会给读者带来很多收获。希望您能继续坚持创作，分享更多关于机器学习的知识和经验。同时，我建议您在下一篇博客中可以尝试添加一些实例或案例分析，这样读者更容易理解和应用所学知识。再次祝贺您，期待您的新作！
【吴恩达 Deep Learning】第一课 Week 1 学习笔记
CSDN-Ada助手: 恭喜作者完成第11篇博客！阅读你的学习笔记，我对你对吴恩达的深度学习课程的研究态度感到钦佩。你以谦虚的态度分享了你的学习心得，这让读者受益匪浅。希望你能继续坚持创作，为我们带来更多有深度的学习笔记。在下一步的创作中，也许你可以考虑加入一些实例或案例，以便更好地帮助读者理解和应用所学知识。期待你的下一篇博客！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。