强化学习视频(一)

最新推荐文章于 2024-06-16 22:42:04 发布

wisteriamhy

最新推荐文章于 2024-06-16 22:42:04 发布

阅读量3.6k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wisteriamhy/article/details/82631735

版权

Lecture One--RL introduction

David Silver

PPT链接：http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/intro_RL.pdf

视频链接：https://www.youtube.com/watch?v=2pWv7GOvuf0&index=1&list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa

Bilibili中文字幕:https://space.bilibili.com/74997410/#/

强化学习与其它机器学习的区别：

没有监督，仅仅只有一个奖励信号，或者说，不直接判定某个状态或动作的好坏，而是给出一个奖励；
没有即时的反馈，或者说，反馈是有延迟的。在监督学习中，例如分类问题，类别判断错误与否直接与损失函数挂钩，而在RL中，比如围棋，我们当前的落子并不会直接被赋予奖励，而是整盘棋下完之后才有一个反馈（赢或输）；
每一时刻发生的事情不是独立同分布的，每一时刻之间是有关联的。所以数据(包括Agent所观察到的信息、Agent接受到的奖励信息等)也是时序化的，数据与数据之间是有关的；
Agent的行为将影响后续的数据，Agent每一次进行的决策都可能会进入不同的环境，处理不同的数据吗，得到不同的反馈结果。例如在下围棋时，每一步的落子将会影响棋局的走向。

RL中的决策：

RL的目标

最低0.47元/天解锁文章

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
强化学习视频(一)

Lecture One--RL introductionDavid Silver PPT链接：http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/intro_RL.pdf视频链接：https://www.youtube.com/watch?v=2pWv7GOvuf0&amp;index=1&amp;list=PL5X3m...
复制链接

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。