刚刚入门强化学习,有问题还希望多多交流~
CartPole环境介绍
关于Gym库的CartPole环境请参考大佬的博客CartPole环境介绍
DQN介绍
DQN相比于Q_Learning其实就是将Q表变成了神经网络,也就是我们在t时刻向神经网络中输入一个状态S,然后神经网络会对这个状态下所能采取的动作进行评分并通过贪婪策略选择动作A得到Q(S,A),我们回想一下Q_Learning算法,看一下Q(S,A)的更新公式
他是需要下一个状态S’的maxQ(S’,A’)来完成当前Q(S,A)的更新,因此需要将S’输入神经网络,并让神经网络完成对A’的评分,并选择最大的Q(S’,A’)。得到maxQ(S’,A’)后,即可以完成对Q(S,A)的更新。
DQN更新方式
DQN更新和Q_learning不同,不是用上面的公式,而是使用的神经网络中设置损失函数完成更新,为了好解释我们先设置一下名字
因为我们最终的目的是使Q(S,A)更新到最优,如果Qtarget和Qvalue之间的差距很小很小甚至为0,那么我们更新Q(S,A)的目标也就做到了,因此这里DQN更新方式采用了深度学习中损失函数的思想来更新
代码部分
整个项目的代码请见github代码
在开始之前要看一下倒立摆的状态空间和动作空间
import gym
env = gym.make('CartPole-v0')
observation = env.reset()
print(observation)#[-0.00478028 -0.02917182 0.00313288 0.03160127]状态空间为4
print(env.action_space)##Discrete(2)##动作是两个离散的动作左移(0)和右移(1)
引入必要的包
import gym
import random
import numpy as np
import tensorflow as tf
import tensorlayer as tl
import argparse
import os
import time
import matplotlib.pyplot as plt
创建网络
def crateModel(input_state):
input_layer=tl.layers.Input(input_state)
layer1=tl.layers.Dense(32, act=None, W_init=tf.random_uniform_initializer(0, 0.01), b_init=None)(input_layer)
layer2 = tl.layers.Dense(16, act=None, W_init=