强化学习7日打卡营-Policy Gradient/DDPG

最新推荐文章于 2022-06-07 19:53:44 发布

昱儿是个电子

最新推荐文章于 2022-06-07 19:53:44 发布

阅读量265

点赞数 1

文章标签：强化学习 python

本文链接：https://blog.csdn.net/weixin_43585812/article/details/106968467

版权

基于策略梯度方法求解RL

value-based vs policy-based

Value-based 是基于价值的，属于一种确定性策略
在计算时优化Q的值然后把Q网络调到最优以后用间接方式输出action，属于确定性的策略。
policy-based 是基于策略的，属于一种随机策略
policy-based使用神经网络拟合直接输出动作1概率，适用于随机性比较大的环境。
在这里插入图片描述

Softmax函数
把多个神经元输出，映射到一个（0,1）的区间中去，可以看成是一个概率，概率相加和为1。

Episode幕
优化的目的是为了让每一幕（一轮游戏）输出的reward尽可能大。
轨迹

通过求出来他的平均回报值，来判断该策略的好坏。

因为策略轨迹太多了是无穷的所以采用了采样的方式来获取，当数据样本足够大的时候就可以近似为平均回报。
优化策略
在这里插入图片描述
优化目标：Q的预测值和Q的预期值进行对比要求Loss越低越好，是梯度下降问题。

优化目标：更大的收益。通过多条轨迹计算梯度网络，是梯度上升问题。
策略梯度

蒙特卡洛 MC：回合结束更新
时序差分TD：单步更新，即每一步都更新

连续动作空间上求解RL

连续动作 vs 离散动作
离散型动作概率输入神经网络通过softmax函数获得一个概率，并且加和为一。

连续的动作概率输入神经网络通过tanh函数进行映射使得数据被限制在在[-1,1]之间。通过实际要求做缩放再给环境。
在这里插入图片描述

随机型策略：通过神经网络获得一个最佳的概率输出的值不少固定的是一个概率（所有概率之和为一）
确定性策略：通过神经网络以后经过训练，只要再输入相同的值输出的结果是固定的。
在这里插入图片描述

DDPG(Deep Deterministic Policy Gradient)

DDPG在原先DQN的基础上添加了一个策略网络，使得机器一边学习网络一边学习策略，称为Actor-Critic结构，他需要通过Q网络的结果来调整自己的策略，不断更新自己的值，Q网络则需要通过环境的反馈进行调整不断改变结果，尽可能的获得更高的收益。在这里插入图片描述

在这里插入图片描述

PARL DDPG代码

在这里插入图片描述

昱儿是个电子

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
强化学习7日打卡营-Policy Gradient/DDPG

基于策略梯度方法求解RLvalue-based vs policy-basedValue-based 是基于价值的，属于一种确定性策略在计算时优化Q的值然后把Q网络调到最优以后用间接方式输出action，属于确定性的策略。policy-based 是基于策略的，属于一种随机策略policy-based使用神经网络拟合直接输出动作1概率，适用于随机性比较大的环境。Softmax函数把多个神经元输出，映射到一个（0,1）的区间中去，可以看成是一个概率，概率相加和为1。Episode幕优
复制链接

扫一扫