强化学习7日打卡营-Policy Gradient/DDPG

基于策略梯度方法求解RL

value-based vs policy-based

Value-based 是基于价值的,属于一种确定性策略
在计算时优化Q的值然后把Q网络调到最优以后用间接方式输出action,属于确定性的策略。
policy-based 是基于策略的,属于一种随机策略
policy-based使用神经网络拟合直接输出动作1概率,适用于随机性比较大的环境。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Softmax函数
把多个神经元输出,映射到一个(0,1)的区间中去,可以看成是一个概率,概率相加和为1。
在这里插入图片描述
Episode幕
优化的目的是为了让每一幕(一轮游戏)输出的reward尽可能大。
轨迹
在这里插入图片描述
在这里插入图片描述
通过求出来他的平均回报值,来判断该策略的好坏。

因为策略轨迹太多了是无穷的所以采用了采样的方式来获取,当数据样本足够大的时候就可以近似为平均回报。
优化策略
在这里插入图片描述
优化目标:Q的预测值和Q的预期值进行对比要求Loss越低越好,是梯度下降问题。
在这里插入图片描述
优化目标:更大的收益。通过多条轨迹计算梯度网络,是梯度上升问题。
策略梯度
在这里插入图片描述
在这里插入图片描述
蒙特卡洛 MC:回合结束更新
时序差分TD:单步更新,即每一步都更新

连续动作空间上求解RL

连续动作 vs 离散动作
离散型动作概率输入神经网络通过softmax函数获得一个概率,并且加和为一。

连续的动作概率输入神经网络通过tanh函数进行映射使得数据被限制在在[-1,1]之间。通过实际要求做缩放再给环境。
在这里插入图片描述

随机型策略:通过神经网络获得一个最佳的概率输出的值不少固定的是一个概率(所有概率之和为一)
确定性策略:通过神经网络以后经过训练,只要再输入相同的值输出的结果是固定的。
在这里插入图片描述

DDPG(Deep Deterministic Policy Gradient)

DDPG在原先DQN的基础上添加了一个策略网络,使得机器一边学习网络一边学习策略,称为Actor-Critic结构,他需要通过Q网络的结果来调整自己的策略,不断更新自己的值,Q网络则需要通过环境的反馈进行调整 不断改变结果,尽可能的获得更高的收益。在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

PARL DDPG代码

在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值