强化学习自定义环境（一）

AI-星辰

已于 2024-08-30 11:06:15 修改

阅读量614

点赞数 9

分类专栏：强化学习自定义环境文章标签： python 机器学习

于 2024-08-30 11:04:57 首次发布

本文链接：https://blog.csdn.net/weixin_46246346/article/details/141712775

版权

强化学习自定义环境专栏收录该内容

9 篇文章 1 订阅

订阅专栏

OpenAI Gym环境创建：从基础到实践

引言

大家好！今天我们来学习如何使用OpenAI Gym创建自己的强化学习环境。不管你是刚接触强化学习的新手，还是想深入了解Gym的爱好者，这篇教程都能帮你更好地理解Gym环境的构建过程。

OpenAI Gym基础

在我们开始创建自己的环境之前，先来了解一下Gym的基本组件：

环境(Environment)：这是我们要解决的问题或任务的模拟。就像一个游戏世界。
观察空间(Observation Space)：环境中智能体能观察到的信息。比如在象棋游戏中，棋盘的当前状态。
动作空间(Action Space)：智能体可以采取的所有可能行动。如在象棋中，移动特定棋子到特定位置。
奖励函数(Reward Function)：定义每个动作的奖励或惩罚，引导智能体学习最优策略。
重置函数(Reset Function)：将环境重置到初始状态，开始新的回合。
步进函数(Step Function)：执行动作并返回新的观察、奖励、是否结束的信息。

了解这些基本组件后，我们就可以开始创建自己的环境了。

创建简单网格世界

让我们通过创建一个简单的"网格世界"来学习如何实现这些组件。想象一个5x5的棋盘，智能体从左上角出发，目标是到达右下角。

首先，导入必要的库：

import gym
import numpy as np
from gym import spaces

现在，让我们创建我们的环境类：

class SimpleGridWorld(gym.Env):
    def __init__(self, size=5):
        super(SimpleGridWorld, self).__init__()
        
        self.size = size
        self.observation_space = spaces.Box(low=0, high=size-1, shape=(2,), dtype=np.int32)
        self.action_space = spaces.Discrete(4)  # 0: Up, 1: Right, 2: Down, 3: Left
        
        self.agent_pos = None
        self.goal_pos = np.array([size-1, size-1])

这段代码定义了我们的环境：

observation_space：智能体的位置，用两个整数表示（行和列）。
action_space：四个可能的动作（上、右、下、左）。
agent_pos：智能体当前位置。
goal_pos：目标位置（右下角）。

接下来，实现重置函数：

    def reset(self):
        self.agent_pos = np.array([0, 0])
        return self.agent_pos

这个函数将智能体放回起始位置（左上角）。

现在，最重要的部分——步进函数：

    def step(self, action):
        if action == 0:  # Up
            self.agent_pos[0] = max(0, self.agent_pos[0] - 1)
        elif action == 1:  # Right
            self.agent_pos[1] = min(self.size - 1, self.agent_pos[1] + 1)
        elif action == 2:  # Down
            self.agent_pos[0] = min(self.size - 1, self.agent_pos[0] + 1)
        elif action == 3:  # Left
            self.agent_pos[1] = max(0, self.agent_pos[1] - 1)
        
        done = np.array_equal(self.agent_pos, self.goal_pos)
        reward = 1 if done else -0.1
        
        return self.agent_pos, reward, done, {}

这个函数执行选择的动作，更新智能体位置，并返回新状态、奖励和是否完成的信息。

最后，添加一个渲染函数来可视化环境：

    def render(self):
        grid = np.full((self.size, self.size), '.')
        grid[tuple(self.agent_pos)] = 'A'
        grid[tuple(self.goal_pos)] = 'G'
        
        for row in grid:
            print(' '.join(row))
        print("\n")

测试我们的环境

让我们来测试一下我们创建的环境：

# 创建环境
env = SimpleGridWorld()

# 开始新的回合
observation = env.reset()
env.render()

# 模拟10步
for _ in range(10):
    action = env.action_space.sample()  # 随机选择动作
    observation, reward, done, _ = env.step(action)
    env.render()
    if done:
        print("目标达成！")
        break