꧁༺逐梦，无惧༻꧂-CSDN博客

原创 kNN算法与手写数字识别

kNN算法采用测量不同特征值之间的距离来进行分类。

2022-04-22 20:40:39 1432

问题背景简介冰面滑行问题是扩展库Gym里内置的一个文本环境任务。该问题的背景是这样的：在一个大小为4×4的湖面上，有些地方结冰了，有些地方没结冰。我们可以用一个4x4的字符矩阵来表示湖面的情况：SFFFFHFHFFFHHFFG其中字母“F”(Frozen)表示结冰的区域，字母“H”（Hole）表示未结冰的冰窟窿，字母“S”（Start）和字母“G”(Goal)分别表示移动任务的起点和目标。在这个湖面上要执行以下的移动任务：要从“S”处移动到“G”处。每一次移动，可以选择“左”、“下”、“右”

2022-03-29 19:13:37 664

原创 Gym使用实例-小车上山

Gym基本使用方法python扩展库Gym是OpenAI推出的免费强化学习实验环境。Gym库的使用方法是：1、使用env = gym.make(环境名)取出环境2、使用env.reset()初始化环境3、使用env.step(动作)执行一步环境4、使用env.render()显示环境5、使用env.close()关闭环境源代码下面将以小车上山为例，说明Gym的基本使用方法。import gym #导入gym库import numpy as np #numpy是一个由多维数组对象和用于处理

2022-03-28 22:04:31 3489 2

原创强化学习笔记-马尔可夫决策过程

本文首先介绍了三个基本概念：马尔可夫性、马尔可夫过程和马尔可夫决策过程。接着引入贝尔曼方程，给出了值函数、状态行为函数、最优值函数、最优状态行为函数的推导公式以及它们之间的关系。

2022-03-23 15:34:49 2043 1

原创 gym入门

gym入门gym简介gym是一个用于开发和比较强化学习算法的工具箱。它对代理（agent）的结构没有任何假设，并且与任何数值计算库(如TensorFlow或Theano)兼容。gym库是一个测试问题的集合，即环境。你可以用它来制定你的强化学习算法。这些环境有一个共享的接口，允许您编写通用的算法。gym安装在cmd中输入：pip install gym环境下面是一个让某些东西运行的最小示例。这将为1000个时间步运行一个 CartPole-v0 环境的实例，并在每个步骤中呈现环境。你应该会看

2022-03-12 22:15:10 3906 1

原创强化学习笔记-强化学习概述

强化学习是机器学习的一种，它通过与环境不断地交互，借助环境的反馈来调整自己的行为，使得累积回报最大。强化学习要解决的就是决策类问题，即求取当前状态下最优行为或行为概率。强化学习包括智能体和环境两大对象，智能体是算法本身，环境是与智能体交互的外部。智能体通过行为a作用于环境，环境反馈给智能体改变前后的状态s和s‘，以及回报r。

2022-03-07 13:27:25 1018

原创 2021-08-15

写笔记，记录小白成长历程

2021-08-15 01:53:39 107

weixin_49897963的博客