CheckOneA-CSDN博客

原创强化学习-简介

目录背景监督式学习非监督式学习强化学习强化学习五个方面Environment（环境）Reward（奖励）Policy（策略）训练代理的方法部署验证强化学习分类无模型的方法基于模型的方法总结背景强化学习是机器学习三大分支之一，除去强化学习外，还有监督式学习和非监督式学习，虽然本系列文章主要介绍强化学习，但是了解另外两类的特点还都是很有必要。本系列的文章首先整体介绍强化学习的相关知识，然后是相关的算法，第一个算法是Q-Learning。监督式学习监督式学习好比有一位老师告诉机器某个物件有什么特征

2021-01-20 23:02:17 2734

原创 Multi-Agent Particle Environment(MPE)安装教程

然后下载压缩包到本地，也可以采用git clon的方式克隆到本地，可以保存到专用的文件夹。，等待安装完毕，需要注意，-e后一个空格，然后一个英文句号。解压压缩包，然后复制根目录地址，如下图是我的存储地址。最后用如下代码检验是否安装成功。卸载MPE源码，可以访问网站。

2024-08-28 15:28:30 213

原创机器学习专栏——（五）线性模型之感知器

感知器是一个是对生物神经元的模拟，实际上是一个最简单的人工神经网络，即一个人工神经元。作为一个分类算法，感知器常用于处理线性可分的二分类问题。与逻辑回归与softmax回归类似，在进行预测前，都要通过线性回归，然后将线性回归的输出作为激活函数的输入，得到预测值。与逻辑回归和softmax不同之处在于，感知器的标签与激活函数。感知器的更新方式不同于逻辑回归和softmax回归，感知器的更新参数只是发生在预测错误时，也就是说，当预测的结果和真实情况一样，便不会更新参数。对于感知器，样本的标签表示为。

2022-09-12 21:12:18 786 1

原创机器学习专栏——（五）线性模型之Softmax回归

以分类中的应用为例，假设某一个数据集共有三种标签，分别为1，2，3。One-Hot编码的编码规则为，码元由0，1两种组成，再同一个码组中，有且仅有一位为1，该1位表示对应元素被选中。例如{0,1,0}表示该样本的标签为2。softmax函数和逻辑回归中的sigmoid函数的作用一样，都是为了将线性回归的连续值转换为离散值，从而完成分类任务，不同之处在于，sigmoid将连续值转换为0和1，而对于一个。softmax实际上是逻辑回归的拓展，它将逻辑回归的二分类推广到了多分类，用逻辑回归的方法解决多分类问题。

2022-09-11 22:54:56 674

原创机器学习专栏——（五）线性模型之逻辑回归

在线性回归当中，预测值是一个连续的，负无穷到正无穷的值，然而在分类问题中，预测值是一个离散的值（预测是哪一个类别，在逻辑回归中，是0和1），因此直接使用线性回归来处理分类问题是不行的。从图形可以看出，sigmoid函数的输入是负无穷到正无穷，输出属于[0,1]，并且当输入为0是，输出为0.5。，其标签用{0,1}表示，也就是说数据集中的样本分为两类，一类是0，一类是1，而我们的目标是找到一个模型，使得计算机能够将这两类分开，并且在给定一个不在数据集中的数据后，能够准确预测出该数据属于哪一类。

2022-09-09 20:07:22 835

原创机器学习专栏——（五）线性模型之基础概念

在分类问题中，不能用上述模型直接预测，这是因为线性模型输出的为连续值，而分类问题的标签为离散的。判别函数：在分类问题中，由于输出的目标都是一些离散的标签，然而模型的输出是连续的值，因此需要引入非线性的决策函数来预测输出目标，决策函数也被称为判别函数。二分类（Binary Classification）：二分类问题中，标签只有两种取值，即两种分类。一对其于和一对一存在一个问题，那就是可能会出出现有一些不知道如何分类的区域，然而argmax不会，如下图。，常用的方式有以下三种：一对其余，一对一，argmax。

2022-09-09 20:01:01 447

原创机器学习专栏——（四）线性回归

线性回归时机器去学习中非常经典的模型，是对自变量和因变量之间的关系进行建模分析。当自变量的数量为1时，称为简单回归，自变量数量大于1时，称为多元回归。分别是增广权重向量和增广特征向量。均是可被学习的参数，

2022-09-06 14:22:04 415

原创机器学习专栏——（三）梯度下降算法

不难想到以下方法：假设当前在山顶，那么以当前位置为基准，找到当前所处位置最陡峭的方向（即下降最快的方向），然后沿着该方向行走一步距离到达新的位置，然后再以新的位置为基准位置，找到最陡峭的地方，再走一步距离，直到到达山地。在前面我们提到，机器学习的目标是训练到一个好的模型，使得损失函数尽可能的小，让预测值和真实值尽可能的接近，因此我们可以将其转换为损失函数最小化的问题，因此可以用梯度下降算法来求解（通过梯度下降算法，学习到合适的参数，使得损失函数最小）。，方向为该点的切线向右部分，为正，梯度表示为。

2022-09-05 21:44:03 327

原创机器学习专栏——（二）机器学习概述

机器学习分类方式有很多，根据训练样本以及反馈方式不同，可以分为监督学习、无监督学习、强化学习三类。

2022-09-05 21:40:00 648

原创机器学习专栏——（一）人工智能概述

人工智能 (Artifical Intelligence, AI)：人工智能是计算机科学的一个分支，主要研究、开发和扩展人类智能的理论、方法、技术和应用系统等。John McCarthy对其定义为：人工智能就是让机器的行为看起来表现的是人多表现出来的智能行为一样。人工智能涵盖许多的子学科，例如：机器感知（计算机视觉、语音信息处理）、学习（模式识别、机器学习、强化学习）、语言（自然语言处理）、记忆（知识表示）、决策（规划、数据挖掘）等。

2022-09-05 21:32:23 1305

原创强化学习算法-Q-Learning

文章目录前言什么是Q-LearningQ-Learning算法原理Q-Learning算法实现步骤Q-Learning算法设计Q-Learning举例示例分析思路算法设计代码编写训练结果代码讲解总结导航前言在本篇文章中，我将描述Q-Learning算法相关知识，并通过一个示例展示拿到一个问题后，如何用Q-Learning算法解决这个问题，从算法设计到算法实现都会涉及，由于Q-Learning算法相关数学推导和马尔可夫决策相关理论知识网上已经有大量教程，本文不再赘述，感兴趣的小伙伴儿可以自行查阅（作者

2021-04-08 00:10:05 2833

转载强化学习五大方面-选择算法训练代理

文章目录前言导航前言在本篇文章中将介绍强化学习中相关的算法，开发者可以根据所训练的对象所处环境，策略表达方式等因素自行选择合适的算法实现。# 算法分类导航

2021-04-06 23:46:54 228

原创 Python基础语法

一、安装1、要想使用python进行开发，首先保证自己的机器拥有python环境，这里推荐Windows安装python3的博客教程：https://zhuanlan.zhihu.com/p/1111683242、有了python后，需要选择一款集成开发环境提高我们的编程效率，推荐使用pycharm,安装教程：https://www.cnblogs.com/du-hong/p/10244304.html3、对于新手来说，可以查看这篇教程学习使用pycharm：https://blog.csdn.net

2021-03-31 20:00:54 701

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

ThinkOneA的博客

原创强化学习-简介

原创 Multi-Agent Particle Environment(MPE)安装教程

原创机器学习专栏——（五）线性模型之感知器

原创机器学习专栏——（五）线性模型之Softmax回归

原创机器学习专栏——（五）线性模型之逻辑回归

原创机器学习专栏——（五）线性模型之基础概念

原创机器学习专栏——（四）线性回归

原创机器学习专栏——（三）梯度下降算法

原创机器学习专栏——（二）机器学习概述

原创机器学习专栏——（一）人工智能概述

原创强化学习算法-Q-Learning

转载强化学习五大方面-选择算法训练代理

原创 Python基础语法

原创强化学习五大方面-奖励与策略结构

原创强化学习五大方面-环境

线性回归数据集-----------配套代码见博客

四悬停点V1.0.txt

qlearning.txt

Q-Learning.zip

强护学习入门资料.zip

ESP8266全家桶

RT-Thread驱动MAX30102

空空如也