利用DQN解决Gym库的CartPole问题

最新推荐文章于 2024-06-27 19:17:42 发布

清致

最新推荐文章于 2024-06-27 19:17:42 发布

阅读量890

点赞数 1

分类专栏：强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/weixin_43861730/article/details/108653444

版权

本文介绍了如何运用深度强化学习中的DQN算法解决Gym库中的CartPole平衡问题。首先，文章对CartPole环境进行了简单说明，接着详细阐述了DQN算法，特别是其不同于Q-Learning的更新方式。最后，提供了代码实现，包括网络构建、模型保存和加载、环境初始化及训练测试等关键步骤。

摘要由CSDN通过智能技术生成

刚刚入门强化学习，有问题还希望多多交流~

CartPole环境介绍

关于Gym库的CartPole环境请参考大佬的博客CartPole环境介绍

DQN介绍

DQN相比于Q_Learning其实就是将Q表变成了神经网络，也就是我们在t时刻向神经网络中输入一个状态S，然后神经网络会对这个状态下所能采取的动作进行评分并通过贪婪策略选择动作A得到Q(S,A)，我们回想一下Q_Learning算法，看一下Q(S,A)的更新公式在这里插入图片描述

他是需要下一个状态S’的maxQ(S’,A’)来完成当前Q(S,A)的更新，因此需要将S’输入神经网络，并让神经网络完成对A’的评分，并选择最大的Q(S’,A’)。得到maxQ(S’,A’)后，即可以完成对Q(S,A)的更新。

DQN更新方式

DQN更新和Q_learning不同，不是用上面的公式，而是使用的神经网络中设置损失函数完成更新，为了好解释我们先设置一下名字
在这里插入图片描述

因为我们最终的目的是使Q(S,A)更新到最优，如果Qtarget和Qvalue之间的差距很小很小甚至为0,那么我们更新Q(S,A)的目标也就做到了，因此这里DQN更新方式采用了深度学习中损失函数的思想来更新

代码部分

整个项目的代码请见github代码
在开始之前要看一下倒立摆的状态空间和动作空间

import gym
env = gym.make('CartPole-v0')
observation = env.reset()
print(observation)#[-0.00478028 -0.02917182  0.00313288  0.03160127]状态空间为4
print(env.action_space)##Discrete(2)##动作是两个离散的动作左移（0）和右移（1）

引入必要的包

import gym
import random
import numpy as np
import tensorflow as tf
import tensorlayer as tl
import argparse
import os
import time
import matplotlib.pyplot as plt

创建网络

def crateModel(input_state):
    input_layer=tl.layers.Input(input_state)
    layer1=tl.layers.Dense(32, act=None, W_init=tf.random_uniform_initializer(0, 0.01), b_init=None)(input_layer)
    layer2 = tl.layers.Dense(16, act=None, W_init=

最低0.47元/天解锁文章

清致

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
利用DQN解决Gym库的CartPole问题

刚刚入门强化学习，有问题还希望多多交流~CartPole环境介绍关于Gym库的CartPole环境请参考大佬的博客CartPole环境介绍DQN介绍DQN相比于Q_Learning其实就是将Q表变成了神经网络，也就是我们在t时刻向神经网络中输入一个状态S，然后神经网络会对这个状态下所能采取的动作进行评分并通过贪婪策略选择动作A得到Q(S,A)，我们回想一下Q_Learning算法，看一下Q(S,A)的更新公式他是需要下一个状态S’的maxQ(S’,A’)来完成当前Q(S,A)的更新，因此需要将S’
复制链接

扫一扫

专栏目录