自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 强化学习学习笔记—— Chapter3 表格型方法

Policy Gradient在 reinforcement learning 中有 3 个components,一个actor,一个environment,一个reward function。让机器玩 video game 时,actor 做的事情就是去操控游戏的摇杆, 比如说向左、向右、开火等操作;environment 就是游戏的主机, 负责控制游戏的画面负责控制说,怪物要怎么移动, 你现在要看到什么画面等等;reward function 就是当你做什么事情,发生什么状况的时候,你可以得到

2020-10-29 21:56:09 277

原创 强化学习学习笔记10.23

马尔可夫链 & 马尔可夫奖励过程:自己的初步理解就是,在某个环境中主体可能存在n个状态,每个状态都对应这一个奖励,当前状态有一定概率转移到其他状态或者保持原样不动,那么当前状态t1得到的奖励 = 当前状态的奖励 + γ(折扣率) * (转移到状态n的概率 * 状态n的奖励 )γ的设定原因之一是为了避免死循环, 可作为参数所有时间得到的奖励:总奖励 = ti时间所在状态得到的奖励 * 折扣率**i价值函数V(s):V(s) = E(Gt|st = s)即在所有状态下的总奖励的期望通

2020-10-23 18:11:20 132

转载 强化学习学习笔记

强化学习学习笔记一、基础概念二、相关问题1、强化学习的基本结构是什么?2、强化学习相对于监督学习为什么训练会更加困难?(强化学习的特征)3、强化学习的基本特征有哪些?4、近几年强化学习发展迅速的原因?5、状态和观测有什么关系?6、对于一个强化学习 Agent,它由什么组成?7、根据强化学习 Agent 的不同,我们可以将其分为哪几类?8、基于策略迭代和基于价值迭代的强化学习方法有什么区别?9、有模型(model-based)学习和免模型(model-free)学习有什么区别?10、强化学习的通俗理解一、基

2020-10-20 21:40:33 221

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除