- 博客(7)
- 收藏
- 关注
原创 Gym实战-冰面滑行
问题背景简介冰面滑行问题是扩展库Gym里内置的一个文本环境任务。该问题的背景是这样的:在一个大小为4×4的湖面上,有些地方结冰了,有些地方没结冰。我们可以用一个4x4的字符矩阵来表示湖面的情况:SFFFFHFHFFFHHFFG其中字母“F”(Frozen)表示结冰的区域,字母“H”(Hole)表示未结冰的冰窟窿,字母“S”(Start)和字母“G”(Goal)分别表示移动任务的起点和目标。在这个湖面上要执行以下的移动任务:要从“S”处移动到“G”处。每一次移动,可以选择“左”、“下”、“右”
2022-03-29 19:13:37 664
原创 Gym使用实例-小车上山
Gym基本使用方法python扩展库Gym是OpenAI推出的免费强化学习实验环境。Gym库的使用方法是:1、使用env = gym.make(环境名)取出环境2、使用env.reset()初始化环境3、使用env.step(动作)执行一步环境4、使用env.render()显示环境5、使用env.close()关闭环境源代码下面将以小车上山为例,说明Gym的基本使用方法。import gym #导入gym库import numpy as np #numpy是一个由多维数组对象和用于处理
2022-03-28 22:04:31 3489 2
原创 强化学习笔记-马尔可夫决策过程
本文首先介绍了三个基本概念:马尔可夫性、马尔可夫过程和马尔可夫决策过程。接着引入贝尔曼方程,给出了值函数、状态行为函数、最优值函数、最优状态行为函数的推导公式以及它们之间的关系。
2022-03-23 15:34:49 2043 1
原创 gym入门
gym入门gym简介gym是一个用于开发和比较强化学习算法的工具箱。它对代理(agent)的结构没有任何假设,并且与任何数值计算库(如TensorFlow或Theano)兼容。gym库是一个测试问题的集合,即环境。你可以用它来制定你的强化学习算法。这些环境有一个共享的接口,允许您编写通用的算法。gym安装在cmd中输入:pip install gym环境下面是一个让某些东西运行的最小示例。这将为1000个时间步运行一个 CartPole-v0 环境的实例,并在每个步骤中呈现环境。你应该会看
2022-03-12 22:15:10 3906 1
原创 强化学习笔记-强化学习概述
强化学习是机器学习的一种,它通过与环境不断地交互,借助环境的反馈来调整自己的行为,使得累积回报最大。强化学习要解决的就是决策类问题,即求取当前状态下最优行为或行为概率。强化学习包括智能体和环境两大对象,智能体是算法本身,环境是与智能体交互的外部。智能体通过行为a作用于环境,环境反馈给智能体改变前后的状态s和s‘,以及回报r。
2022-03-07 13:27:25 1018
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人