学习笔记 - 强化学习基础

1.强化学习的基本结构是什么?
本质上是强化学习agent和Environment间的交互。agent从Environment中获取状态(State),然后输出一个Action,这个Action会加入到Environment中,并使得Environment输出一个新的State和Action得到的Reward。Agent在Environment中存在的目的 就是为了使得积累的Reward极大化。

2.强化学习相对于监督学习为什么训练会更加困难?(强化学习的特征)

  • 数据间的相关性:监督学习的训练数据之间是没有关联的,即它们服从i.i.d分布(独立同分布),而强化学习的数据之间有一定的关联性。
  • 延迟奖励:监督学习agent在做出每一个action后,都能立即得到一个反馈,如果采取的行为是错误的话,还会给出正确的决定;而强化学习却不能,如果它的agent做出了一个错误的action,有时候可以立即得到指引,说它这个action是错误的,但不能得到正确的action,更难的是,做出的action要等到一段时间后才能知道这个行为行不行。

3.强化学习的基本特征有哪些?

  • 通过探索环境来获得对这个环境的理解
  • 强化学习Agent会从环境中得到延迟的奖励
  • 在强化学习的过程中,时间非常重要,得到的数据都是有时间关联的
  • Agent的行为会改变Environment的State,影响后面的数据

4.近几年强化学习发展迅速的原因?

  1. 有了更多的计算能力,更多的GPU,可以更快的做更多的试错(trail-and-error)的尝试
  2. 通过这种不同尝试使得Agent在这个环境里获得更多的信息,得到更多的Reward
  3. 我们有了这个端到端的一个训练,可以把特征提取和价值估计或者决策一块来优化,这样就可以得到一个更强的决策网络

5.观测和状态有什么关系?

6.对于一个强化学习Agent,它由什么组成?

7.根据强化学习Agent的不同,我们可以将其分为几类?

8.基于策略迭代和基于价值迭代的强化学习方法有什么区别?

9.有模型(model-based)和免模型(model-free)有什么区别?

10.强化学习的通俗理解

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值