快乐的强化学习5——Actor Critic及其实现方法

最新推荐文章于 2024-04-13 14:00:00 发布

Bubbliiiing

最新推荐文章于 2024-04-13 14:00:00 发布

阅读量6k

点赞数 7

分类专栏：快乐的强化学习文章标签： Actor Critic 演员-评论家机器学习强化学习人工智能

本文链接：https://blog.csdn.net/weixin_44791964/article/details/99698318

版权

快乐的强化学习专栏收录该内容

7 篇文章 42 订阅

订阅专栏

快乐的强化学习5——Actor Critic及其实现方法

学习前言

学习前言

刚刚从大学毕业，近来闲来无事，开始了机器学习的旅程，深度学习是机器学习的重要一环，其可以使得机器自我尝试，并通过结果进行学习。
在这里插入图片描述
在机器学习的过程中，我自网上了解到大神morvanzhou，一个从土木工程转向了计算机的“聪明绝顶”的、英语特好的男人。
morvanzhou的python个人主页，请有兴趣的同学关注大神morvanzhou的python教程。

一、简介

Actor Critic的中文名字是演员&评论家，它的主体可以分为两个部分，分别是演员和评论家。
actor（演员）的作用与其policy gradient类似，其可以通过输入环境的观测量利用神经网络得到每个动作的概率，并通过每个观测状态的得分更新当前的神经网络。它就好像一个被指定动作的演员一般。
Critic（评论家）的作用与其前身DQN类似，其可以通过输入环境的观测量预测每个环境的价值，并通过实际价值与预测价值更新当前的神经网络，它的价值输出可以对actor的动作选择进行动作指导，就好像评论演员的评论家，有助于演员做更好的动作。
actor的前身是policy gradient，policy gradient可以轻松地在完成连续空间的动作，Actor Critic也有同样的特性，但是由于policy gradien是基于回合更新的，所以学习效率比较慢，这时候我们使用前身为DQN的value-based算法为Actor提供算法的参数支持，有助于算法的快速更新。

二、实现过程拆解

本文使用了OpenAI Gym中的CartPole-v0游戏来验证算法的实用性。
该环境只有两个离散动作，板子可以向左滑动或者向右滑动，保持杆子不倒即可。
state状态就是这个板子的位置和速度， pole的角度和角速度，4维的特征。

1、神经网络部分

a、Actor部分

在Actor部分，通过输入状态来得到每个动作的概率。
其建立的神经网络结构如下：
神经网络的输入量是self.s，指的是环境的状态。
神经网络的输出量是self.acts_prob，指的是每个动作的概率。
其学习过程需要结合Critic部分输出的self.td_error进行学习，self.td_error在训练过程中的含义类似于该环境的评分。

class Actor(object):
    def __init__(self, sess, n_features, n_actions, lr=0.001):

        self.sess = sess
        # 状态
        self.s = tf.placeholder(tf.float32, [1, n_features], "state")
        # 动作
        self.a = tf.placeholder(tf.int32, None, "act")
        self.td_error = tf.placeholder(tf.float32, None, "td_error")  # TD_error

        with tf.variable_scope('Actor'):

            l1 = tf.layers.dense(
                inputs=self.s,
                units=20,    # 二十个神经元
                activation=tf.nn.relu,
                kernel_initializer=tf.random_normal_initializer(0., .1),
                bias_initializer=tf.constant_initializer(0.1),
                name='l1'
            )

            l2 = tf.layers.dense(
                inputs=l1,
                units=n_actions,    # 状态的维度
                activation=None,   # 获得执行每个动作的可能性
                kernel_initializer=tf.random_normal_initializer(0., .1), 
                bias_initializer=tf.constant_initializer(0.1),
                name='acts_prob'
            )
        self.acts_prob = tf.nn.softmax(l2)
        label = [self.a]
        with tf.variable_scope('exp_v'):
            # 可以通过最小化-(log_p * R)的方式实现最大化(log_p * R)
            neg_log_prob = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=l2, labels=label)   
            self.exp_v = tf.reduce_mean(neg_log_prob * self.td_error) 

        with tf.variable_scope('train'):
            self.train_op = tf.train.AdamOptimizer(lr).minimize(self.exp_v)  # minimize(-exp_v) = maximize(exp_v)

    def learn(self, s, a, td):
        s = s[np.newaxis, :]
        feed_dict = {self.s: s, self.a: a, self.td_error: td}
        _, exp_v = self.sess.run([self.train_op, self.exp_v], feed_dict)
        return exp_v

    def choose_action(self, s):
        s = s[np.newaxis, :]
        # 获得所有动作的概率
        probs = self.sess.run(self.acts_prob, {self.s: s})   
        # 返回按照一定概率选择的动作
        return np.random.choice(np.arange(probs.shape[1]), p=probs.ravel())

b、Critic部分

在Critic部分，通过输入状态来得到每个环境的评分
神经网络的输入量是self.s，指的是环境的状态。
神经网络的输出量是self.v，该环境的得分。
其学习过程与DQN类似，通过所处的当前环境的估计得分、下一步的环境的现实得分进行得分更新的。
当前环境的估计得分与DQN中的Q估计类似
下一步的环境的现实得分与DQN中的Q现实类似。

class Critic(object):
    def __init__(self, sess, n_features, lr=0.01):
        self.sess = sess
        # s是状态
        self.s = tf.placeholder(tf.float32, [1, n_features], "state")
        # 下一个状态的预计value
        self.v_ = tf.placeholder(tf.float32, [1, 1], "v_next")
        # r是得分
        self.r = tf.placeholder(tf.float32, None, 'r')

        with tf.variable_scope('Critic'):
            l1 = tf.layers.dense(
                inputs=self.s,
                units=20, 
                activation=tf.nn.relu,  
                kernel_initializer=tf.random_normal_initializer(0., .1),
                bias_initializer=tf.constant_initializer(0.1),
                name='l1'
            )

            self.v = tf.layers.dense(
                inputs=l1,
                units=1,  # output units
                activation=None,
                kernel_initializer=tf.random_normal_initializer(0., .1),
                bias_initializer=tf.constant_initializer(0.1),
                name='V'
            )

        with tf.variable_scope('squared_TD_error'):
            # 获取下一个环境得分与该环境的差
            # self.r + GAMMA * self.v_为现实的价值，V_eval为预计的价值
            self.td_error = self.r + GAMMA * self.v_ - self.v
            self.loss = tf.square(self.td_error)    # TD_error = (r+gamma*V_next) - V_eval
        with tf.variable_scope('train'):
            self.train_op = tf.train.AdamOptimizer(lr).minimize(self.loss)

    def learn(self, s, r, s_):
        s, s_ = s[np.newaxis, :], s_[np.newaxis, :]
        
        # 获得下一个环境的预测得分
        v_ = self.sess.run(self.v, {self.s: s_})
        
        td_error, _ = self.sess.run([self.td_error, self.train_op],
                                          {self.s: s, self.v_: v_, self.r: r})
        return td_error

2、动作的选择

其根据神经网络的输出按照概率选择动作。

def choose_action(self, s):
    s = s[np.newaxis, :]
    # 获得所有动作的概率
    probs = self.sess.run(self.acts_prob, {self.s: s})   
    # 返回按照一定概率选择的动作
    return np.random.choice(np.arange(probs.shape[1]), p=probs.ravel())

3、Actor神经网络的学习

Actor神经网络的学习过程是这样的，得到Critic评出的得分，并通过该得分进行训练。
以下代码为Critic评出的得分：

self.td_error = self.r + GAMMA * self.v_ - self.v

通过所有的状态得到所有状态下每个动作的概率，利用：

neg_log_prob = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=l2, labels=label)   
self.exp_v = tf.reduce_mean(neg_log_prob * self.td_error)

计算每个动作的概率和实际动作的交叉熵，乘上实际得分，得到损失函数值。

三、具体实现代码

具体的实现代码仅一部分：

import numpy as np
import tensorflow as tf
import gym
import math

np.random.seed(2)
tf.set_random_seed(2) 

# 在200分前不显示图像
DISPLAY_REWARD_THRESHOLD = 200
RENDER = False 

# 是否输出图像
OUTPUT_GRAPH = False

# 最大世代
MAX_EPISODE = 3000
MAX_EP_STEPS = 1000   # maximum time step in one episode

# 衰减率
GAMMA = 0.9     

# 两个神经网络的学习率
LR_A = 0.001    # actor学习率
LR_C = 0.01     # critic学习率

env = gym.make('CartPole-v0')
env.seed(1)
env = env.unwrapped

# 环境的维度
N_F = env.observation_space.shape[0]
# 动作的数量
N_A = env.action_space.n


class Actor(object):
    def __init__(self, sess, n_features, n_actions, lr=0.001):

        self.sess = sess
        # 状态
        self.s = tf.placeholder(tf.float32, [1, n_features], "state")
        # 动作
        self.a = tf.placeholder(tf.int32, None, "act")
        self.td_error = tf.placeholder(tf.float32, None, "td_error")  # TD_error

        with tf.variable_scope('Actor'):

            l1 = tf.layers.dense(
                inputs=self.s,
                units=20,    # 二十个神经元
                activation=tf.nn.relu,
                kernel_initializer=tf.random_normal_initializer(0., .1),
                bias_initializer=tf.constant_initializer(0.1),
                name='l1'
            )

            l2 = tf.layers.dense(
                inputs=l1,
                units=n_actions,    # 状态的维度
                activation=None,   # 获得执行每个动作的可能性
                kernel_initializer=tf.random_normal_initializer(0., .1), 
                bias_initializer=tf.constant_initializer(0.1),
                name='acts_prob'
            )
        self.acts_prob = tf.nn.softmax(l2)
        label = [self.a]
        with tf.variable_scope('exp_v'):
            # 可以通过最小化-(log_p * R)的方式实现最大化(log_p * R)
            neg_log_prob = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=l2, labels=label)   
            self.exp_v = tf.reduce_mean(neg_log_prob * self.td_error) 

        with tf.variable_scope('train'):
            self.train_op = tf.train.AdamOptimizer(lr).minimize(self.exp_v)  # minimize(-exp_v) = maximize(exp_v)

    def learn(self, s, a, td):
        s = s[np.newaxis, :]
        feed_dict = {self.s: s, self.a: a, self.td_error: td}
        _, exp_v = self.sess.run([self.train_op, self.exp_v], feed_dict)
        return exp_v

    def choose_action(self, s):
        s = s[np.newaxis, :]
        # 获得所有动作的概率
        probs = self.sess.run(self.acts_prob, {self.s: s})   
        # 返回按照一定概率选择的动作
        return np.random.choice(np.arange(probs.shape[1]), p=probs.ravel())   


class Critic(object):
    def __init__(self, sess, n_features, lr=0.01):
        self.sess = sess
        # s是状态
        self.s = tf.placeholder(tf.float32, [1, n_features], "state")
        # 下一个状态的预计value
        self.v_ = tf.placeholder(tf.float32, [1, 1], "v_next")
        # r是得分
        self.r = tf.placeholder(tf.float32, None, 'r')

        with tf.variable_scope('Critic'):
            l1 = tf.layers.dense(
                inputs=self.s,
                units=20, 
                activation=tf.nn.relu,  
                kernel_initializer=tf.random_normal_initializer(0., .1),
                bias_initializer=tf.constant_initializer(0.1),
                name='l1'
            )

            self.v = tf.layers.dense(
                inputs=l1,
                units=1,  # output units
                activation=None,
                kernel_initializer=tf.random_normal_initializer(0., .1),
                bias_initializer=tf.constant_initializer(0.1),
                name='V'
            )

        with tf.variable_scope('squared_TD_error'):
            # 获取下一个环境得分与该环境的差
            # self.r + GAMMA * self.v_为现实的价值，V_eval为预计的价值
            self.td_error = self.r + GAMMA * self.v_ - self.v
            self.loss = tf.square(self.td_error)    # TD_error = (r+gamma*V_next) - V_eval
        with tf.variable_scope('train'):
            self.train_op = tf.train.AdamOptimizer(lr).minimize(self.loss)

    def learn(self, s, r, s_):
        s, s_ = s[np.newaxis, :], s_[np.newaxis, :]
        
        # 获得下一个环境的预测得分
        v_ = self.sess.run(self.v, {self.s: s_})
        
        td_error, _ = self.sess.run([self.td_error, self.train_op],
                                          {self.s: s, self.v_: v_, self.r: r})
        return td_error


sess = tf.Session()

# critic输出的数据会为actor进行指导，所以critic需要训练的更快一些
actor = Actor(sess, n_features=N_F, n_actions=N_A, lr=LR_A)
critic = Critic(sess, n_features=N_F, lr=LR_C)     

sess.run(tf.global_variables_initializer())

if OUTPUT_GRAPH:
    tf.summary.FileWriter("logs/", sess.graph)

for i_episode in range(MAX_EPISODE):
    s = env.reset()
    t = 0
    # 用于记录每一轮的得分
    track_r = []
    while True:
        if RENDER: env.render()

        a = actor.choose_action(s)
        
        s_, r, done, info = env.step(a)

        x, x_dot, theta, theta_dot = s_   

        # r1代表车的 x水平位移 与 x最大边距 的距离差的得分
        r1 = math.exp((env.x_threshold - abs(x))/env.x_threshold) - math.exp(1)/2
        # r1代表棒子的 theta离垂直的角度 与 theta最大角度 的差的得分
        r2 = math.exp((env.theta_threshold_radians - abs(theta))/env.theta_threshold_radians) - math.exp(1)/2
        # 总 reward 是 r1 和 r2 的结合, 既考虑位置, 也考虑角度。
        r = r1 + r2  

        # 如果没有撑过1000回合，则得分为-20一次。
        if done: r = -20

        track_r.append(r)

        td_error = critic.learn(s, r, s_)  # gradient = grad[r + gamma * V(s_) - V(s)]
        
        actor.learn(s, a, td_error)     # true_gradient = grad[logPi(s,a) * td_error]

        # 状态更新
        s = s_

        # t++
        t += 1

        if done or t >= MAX_EP_STEPS:
            ep_rs_sum = sum(track_r)

            if 'running_reward' not in globals():
                running_reward = ep_rs_sum
            else:
                # 保留95%过去的得分，并加上5%现在的得分
                running_reward = running_reward * 0.95 + ep_rs_sum * 0.05
            if running_reward > DISPLAY_REWARD_THRESHOLD: RENDER = True
            print("episode:", i_episode, "  reward:", int(running_reward))
            break

代码的各部分我都进行了详细的备注。
相比于原来的代码，我对代码进行了一定的更改，分别是得分部分和Actor神经网络的训练部分。
首先是得分部分：

        x, x_dot, theta, theta_dot = s_   

        # r1代表车的 x水平位移 与 x最大边距 的距离差的得分
        r1 = math.exp((env.x_threshold - abs(x))/env.x_threshold) - math.exp(1)/2
        # r1代表棒子的 theta离垂直的角度 与 theta最大角度 的差的得分
        r2 = math.exp((env.theta_threshold_radians - abs(theta))/env.theta_threshold_radians) - math.exp(1)/2
        # 总 reward 是 r1 和 r2 的结合, 既考虑位置, 也考虑角度。
        r = r1 + r2

得分部分不仅考虑了棒子的theta离垂直的角度与 theta最大角度的差的得分还考虑了x水平位移与x最大边距的距离差的得分
Actor神经网络的训练部分：

self.acts_prob = tf.nn.softmax(l2)
label = [self.a]
with tf.variable_scope('exp_v'):
    # 可以通过最小化-(log_p * R)的方式实现最大化(log_p * R)
    neg_log_prob = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=l2, labels=label)   
    self.exp_v = tf.reduce_mean(neg_log_prob * self.td_error)

利用交叉熵形式，我认为更加清晰。
由于代码并不是自己写的，所以就不上传github了，不过还是欢迎大家关注我和我的github。
https://github.com/bubbliiiing/
希望得到朋友们的喜欢。

有不懂的朋友可以评论询问噢。

Bubbliiiing

关注

7
点赞
踩
39

收藏

觉得还不错? 一键收藏
打赏
2
评论
快乐的强化学习5——Actor Critic及其实现方法

快乐的强化学习5——Actor Critic及其实现方法学习前言简介举例应用神经网络的构建Actor部分Critic部分动作的选择Actor神经网络的学习具体实现代码学习前言刚刚从大学毕业，近来闲来无事，开始了机器学习的旅程，深度学习是机器学习的重要一环，其可以使得机器自我尝试，并通过结果进行学习。在机器学习的过程中，我自网上了解到大神morvanzhou，一个从土木工程转向了计算机的“聪...
复制链接

扫一扫