关于强化学习的简介

奇幻纬度

已于 2022-06-18 17:09:34 修改

阅读量397

点赞数

分类专栏：笔记文章标签：强化学习机器学习人工智能

于 2020-10-29 19:22:01 首次发布

本文链接：https://blog.csdn.net/weixin_47266712/article/details/109367119

版权

笔记专栏收录该内容

38 篇文章 1 订阅

订阅专栏

本文介绍了强化学习的基本概念，通过巴普洛夫的条件反射实验解释强化学习原理。强化学习关注序贯决策问题，旨在找到最优策略。它与监督学习、非监督学习不同，更注重通过与环境交互学习。文中提到了强化学习的三大类别，并举例说明其应用。

摘要由CSDN通过智能技术生成

前言

本人刚开始学习强化学习的知识，想要将学到的知识进行整理归纳，由于是第一次写文章，肯定有一些不足的地方，还望指正，谢谢！后续有内容还会补充上去。

一、关于强化学习的理解

1、什么是强化学习
在讲强化学习之前，我们先了解下一个生物学实验——巴普洛夫的条件反射实验。
在这里插入图片描述
第一阶段：将食物放入狗的口中，狗自然分泌唾液。
第二阶段：在狗看不见的地方发出铃声，此时狗不会分泌唾液。
第三阶段：在狗进食前，发出相同的一段铃声，之后看到食物的狗分泌了唾液。重复该阶段多次。
第四阶段：发出铃声但不递上食物，狗分泌唾液。
在这个实验过程中，狗由听到铃声不分泌唾液变成了听到铃声就分泌唾液。这个实验跟强化学习有哪些关系呢？众所周知，强化学习是模仿生物学习的过程，巴普洛夫实验实际上就是狗学会听到铃声就分泌唾液的学习过程，狗本来听到铃声是不会分泌唾液的，但巴普洛夫通过食物这个奖励来不断强化狗听到铃声就分泌唾液这一行为。所以，强化学习就是通过奖励来不断强化某一行为的学习过程。
强化学习通常包括两个实体agent和environment。两个实体的交互如下，在environment的state st下，agent采取action at进而得到reward rt 并进入state st+1

在这里插入图片描述

2、强化学习能解决什么问题？
强化学习研究的是序贯决策问题。什么是序贯决策问题呢，序贯决策问题就是找到一个决策序列，使目标函数最优。目标函数是指累积回报的期望值在这里插入图片描述
如下图所示，最优策略的目标是找到决策序列

在这里插入图片描述

3、强化学习有哪些？
目前的强化学习可以分为三类，分别是基于值函数的强化学习、基于策略的强化学习和将两者结合起来的Actor-Critic。
在这里插入图片描述

4、强化学习与其他机器学习的区别
从广义上来说，机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说，机器学习是一种通过利用数据，训练出模型，然后使用模型预测的一种方法。机器学习按学习方式可分为监督学习、非监督学习和强化学习。监督学习使用有标签的训练集进行学习，非监督学习使用无标签的训练集进行学习，而强化学习则通过与环境的交互，通过不断试错来获得最佳策略。深度学习粗略地说就是使用深度神经网络为工具的机器学习算法，具体就是通过多层非线性变换对高复杂度数据建模的算法的合集。在机器学习其他机器学习算法中常常与深度学习结合使用。
在这里插入图片描述