使用gym创建一个自定义环境

1. 环境说明

如上图,红色为起点,绿色为终点,在5*5的表格中每到达一个表格就会获得该表格对应的分数rn,agent的目标就是 找到一条路来使分数最少:)。

2. 创建环境

标准的gym环境可以分为以下几个部分,这里借鉴了gym的cliff_walking环境:

class my_env(Env):
     def __int__(self):
         pass
     def step(self.action):
         pass
     def render(self):
         pass
     def reset(self):
         pass

其中__init()用来创建动作空间,观察空间等等:

    def __init__(self):
        self.rows = 5 #行
        self.cols = 5 #列
        self.start = [0, 0] #起点
        self.goal = [3, 4] #目标点
        self.current_state = None #当前状态
        self.action_space = spaces.Discrete(3) #动作空间,离散的三个动作0,1,2
        self.observation_space = spaces.Box
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值