深度强化学习-策略梯度及PPO算法-笔记(四)

策略梯度Policy Gradient

基础知识

  • actor:做的事情就是去操控游戏的摇杆, 比如说向左、向右、开火等。(操作policy gradient要学习的对象, 是我们可以控制的部分)

  • environment:游戏的主机, 负责控制游戏的画面负责控制说,怪物要怎么移动, 你现在要看到什么画面等等。(给定的,无法控制)

  • reward function:是当你做什么事情,发生什么状况的时候,你可以得到多少分数, 比如说杀一只怪兽得到 20 分等等。(无法控制)

  • policy:是给一个外界的输入,然后它会输出 actor 现在应该要执行的行为。policy 一般写成π

  • Policy of actor π:假设你是用 deep learning 的技术来做reinforcement learning 的话,policy 就是一个 network。Network 里面就有一堆参数, 我们用 θ 来代表 π 的参数。 Network 的 input 就是现在 machine 看到的东西,Output 的就是机器要采取什么样的行为。
    在这里插入图片描述

  • episode(回合):一场游戏就叫做一个episode或者trial(试验),是指游戏从开始到结束的一个完整的回合。
    在这里插入图片描述

  • R (return回报):把这个游戏里面,所有得到的 reward 都总合起来,就是 total reward,用 R 表示。

  • actor的目标:maximize 它可以得到的 reward

  • Trajectory:一个episode里,我们把environment输出的s和actor输出的a全部串联起来,叫做一个trajectory。
    在这里插入图片描述

  • trajectory 发生的概率

  • 假设现在给定了 actor 的参数θ,根据这个参数可以计算某一个trajectory 发生的概率:
    在这里插入图片描述
    这个概率取决于两个部分:

  1. environment 的行为 :environment 的 function 它内部的参数或内部的规则长什么样子。p(st+1 | st, at)这一项代表的是 environment,这一
    项通常是无法控制的,因为这个环境是别人写好的。
  2. agent 的行为:我们能控制的是pθ( at|st)。随着 actor 的参数θ不同,每个同样的 trajectory, 它就会有不同的出现的概率。
  • reward function:根据在某一个 state 采取的某一个 action 决定说现在这个行为可以得到多少的分数。输入s1, a1,输出r1;输入s2, a2,输出r2;把所有的r加起来,就得到一个trajectory的Reward R(τ)。我们的目标就是调整 actor 内部的参数 θ, 使得 R 的 值越大越好
  • expected reward
    我们可以在给定某一组参数θ的情况下,计算得到的R的期望:
    在这里插入图片描述
    穷举所有可能的 trajectory τ,每个τ都有一个概率,所以R的期望可以写成:
    在这里插入图片描述

策略梯度的计算

在这里插入图片描述
原PPT数学公式解析:

  • 5
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值