weixin_48580498-CSDN博客

原创强化学习学习笔记—— Chapter3 表格型方法

Policy Gradient在 reinforcement learning 中有 3 个components，一个actor，一个environment，一个reward function。让机器玩 video game 时，actor 做的事情就是去操控游戏的摇杆，比如说向左、向右、开火等操作；environment 就是游戏的主机，负责控制游戏的画面负责控制说，怪物要怎么移动，你现在要看到什么画面等等；reward function 就是当你做什么事情，发生什么状况的时候，你可以得到

2020-10-29 21:56:09 277

原创强化学习学习笔记10.23

马尔可夫链 & 马尔可夫奖励过程：自己的初步理解就是，在某个环境中主体可能存在n个状态，每个状态都对应这一个奖励，当前状态有一定概率转移到其他状态或者保持原样不动，那么当前状态t1得到的奖励 = 当前状态的奖励 + γ(折扣率) * (转移到状态n的概率 * 状态n的奖励 )γ的设定原因之一是为了避免死循环，可作为参数所有时间得到的奖励:总奖励 = ti时间所在状态得到的奖励 * 折扣率**i价值函数V(s)：V(s) = E(Gt|st = s)即在所有状态下的总奖励的期望通

2020-10-23 18:11:20 132

转载强化学习学习笔记

强化学习学习笔记一、基础概念二、相关问题1、强化学习的基本结构是什么？2、强化学习相对于监督学习为什么训练会更加困难？（强化学习的特征）3、强化学习的基本特征有哪些？4、近几年强化学习发展迅速的原因？5、状态和观测有什么关系？6、对于一个强化学习 Agent，它由什么组成？7、根据强化学习 Agent 的不同，我们可以将其分为哪几类？8、基于策略迭代和基于价值迭代的强化学习方法有什么区别?9、有模型（model-based）学习和免模型（model-free）学习有什么区别？10、强化学习的通俗理解一、基

2020-10-20 21:40:33 221

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 强化学习学习笔记—— Chapter3 表格型方法

原创 强化学习学习笔记10.23

转载 强化学习学习笔记

空空如也

空空如也

原创强化学习学习笔记—— Chapter3 表格型方法

原创强化学习学习笔记10.23

转载强化学习学习笔记