- 博客(3)
- 收藏
- 关注
原创 强化学习学习笔记—— Chapter3 表格型方法
Policy Gradient在 reinforcement learning 中有 3 个components,一个actor,一个environment,一个reward function。让机器玩 video game 时,actor 做的事情就是去操控游戏的摇杆, 比如说向左、向右、开火等操作;environment 就是游戏的主机, 负责控制游戏的画面负责控制说,怪物要怎么移动, 你现在要看到什么画面等等;reward function 就是当你做什么事情,发生什么状况的时候,你可以得到
2020-10-29 21:56:09 277
原创 强化学习学习笔记10.23
马尔可夫链 & 马尔可夫奖励过程:自己的初步理解就是,在某个环境中主体可能存在n个状态,每个状态都对应这一个奖励,当前状态有一定概率转移到其他状态或者保持原样不动,那么当前状态t1得到的奖励 = 当前状态的奖励 + γ(折扣率) * (转移到状态n的概率 * 状态n的奖励 )γ的设定原因之一是为了避免死循环, 可作为参数所有时间得到的奖励:总奖励 = ti时间所在状态得到的奖励 * 折扣率**i价值函数V(s):V(s) = E(Gt|st = s)即在所有状态下的总奖励的期望通
2020-10-23 18:11:20 132
转载 强化学习学习笔记
强化学习学习笔记一、基础概念二、相关问题1、强化学习的基本结构是什么?2、强化学习相对于监督学习为什么训练会更加困难?(强化学习的特征)3、强化学习的基本特征有哪些?4、近几年强化学习发展迅速的原因?5、状态和观测有什么关系?6、对于一个强化学习 Agent,它由什么组成?7、根据强化学习 Agent 的不同,我们可以将其分为哪几类?8、基于策略迭代和基于价值迭代的强化学习方法有什么区别?9、有模型(model-based)学习和免模型(model-free)学习有什么区别?10、强化学习的通俗理解一、基
2020-10-20 21:40:33 221
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人