1. 环境说明
如上图,红色为起点,绿色为终点,在5*5的表格中每到达一个表格就会获得该表格对应的分数rn,agent的目标就是 找到一条路来使分数最少:)。
2. 创建环境
标准的gym环境可以分为以下几个部分,这里借鉴了gym的cliff_walking环境:
class my_env(Env):
def __int__(self):
pass
def step(self.action):
pass
def render(self):
pass
def reset(self):
pass
其中__init()用来创建动作空间,观察空间等等:
def __init__(self):
self.rows = 5 #行
self.cols = 5 #列
self.start = [0, 0] #起点
self.goal = [3, 4] #目标点
self.current_state = None #当前状态
self.action_space = spaces.Discrete(3) #动作空间,离散的三个动作0,1,2
self.observation_space = spaces.Box