强化学习视频(一)

Lecture One--RL introduction

David Silver 

PPT链接:http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/intro_RL.pdf

视频链接:https://www.youtube.com/watch?v=2pWv7GOvuf0&index=1&list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa

Bilibili中文字幕:https://space.bilibili.com/74997410/#/

强化学习与其它机器学习的区别:

  1.  没有监督,仅仅只有一个奖励信号,或者说,不直接判定某个状态或动作的好坏,而是给出一个奖励;
  2. 没有即时的反馈,或者说,反馈是有延迟的。在监督学习中,例如分类问题,类别判断错误与否直接与损失函数挂钩,而在RL中,比如围棋,我们当前的落子并不会直接被赋予奖励,而是整盘棋下完之后才有一个反馈(赢或输);
  3. 每一时刻发生的事情不是独立同分布的,每一时刻之间是有关联的。所以数据(包括Agent所观察到的信息、Agent接受到的奖励信息等)也是时序化的,数据与数据之间是有关的;
  4. Agent的行为将影响后续的数据,Agent每一次进行的决策都可能会进入不同的环境,处理不同的数据吗,得到不同的反馈结果。例如在下围棋时,每一步的落子将会影响棋局的走向。

RL中的决策:

  1. RL的目标
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值