基于策略梯度方法求解RL
value-based vs policy-based
Value-based 是基于价值的,属于一种确定性策略
在计算时优化Q的值然后把Q网络调到最优以后用间接方式输出action,属于确定性的策略。
policy-based 是基于策略的,属于一种随机策略
policy-based使用神经网络拟合直接输出动作1概率,适用于随机性比较大的环境。
Softmax函数
把多个神经元输出,映射到一个(0,1)的区间中去,可以看成是一个概率,概率相加和为1。
Episode幕
优化的目的是为了让每一幕(一轮游戏)输出的reward尽可能大。
轨迹
通过求出来他的平均回报值,来判断该策略的好坏。
因为策略轨迹太多了是无穷的所以采用了采样的方式来获取,当数据样本足够大的时候就可以近似为平均回报。
优化策略
优化目标:Q的预测值和Q的预期值进行对比要求Loss越低越好,是梯度下降问题。
优化目标:更大的收益。通过多条轨迹计算梯度网络,是梯度上升问题。
策略梯度
蒙特卡洛 MC:回合结束更新
时序差分TD:单步更新,即每一步都更新
连续动作空间上求解RL
连续动作 vs 离散动作
离散型动作概率输入神经网络通过softmax函数获得一个概率,并且加和为一。
连续的动作概率输入神经网络通过tanh函数进行映射使得数据被限制在在[-1,1]之间。通过实际要求做缩放再给环境。
随机型策略:通过神经网络获得一个最佳的概率输出的值不少固定的是一个概率(所有概率之和为一)
确定性策略:通过神经网络以后经过训练,只要再输入相同的值输出的结果是固定的。
DDPG(Deep Deterministic Policy Gradient)
DDPG在原先DQN的基础上添加了一个策略网络,使得机器一边学习网络一边学习策略,称为Actor-Critic结构,他需要通过Q网络的结果来调整自己的策略,不断更新自己的值,Q网络则需要通过环境的反馈进行调整 不断改变结果,尽可能的获得更高的收益。