Udacity强化学习系列（一）——什么是强化学习，强化学习用来解决什么问题

最新推荐文章于 2024-07-01 00:25:53 发布

代码随想随记

最新推荐文章于 2024-07-01 00:25:53 发布

阅读量4.8k

点赞数 1

分类专栏：强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/woai8339/article/details/82724926

版权

强化学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

最近半个月（~10.01）主要初步了解及充电强化学习。强化学习也是机器学习的一个分支，其他两个是我们相对熟悉的监督学习和非监督学习。我们先来看看强化学习主要是什么，可以用来干什么，然后看看与监督学习和非监督学习的区别与联系。学习参考可以看Ref[1],本笔记主要是为了记录在Udacity课程上学习的强化学习内容，以作备忘。

分三个部分来说明：
1. 强化学习简介
2. 强化学习与监督学习、非监督学习的区别
3. 强化学习可以解决什么问题

## 1、强化学习简介 ##
强化学习重点在强化两个字，它是一种决策学习过程，是对一个决策做出奖励或者惩罚，进而促进其行为往我们期望的方向进行的一种学习方式。
举个例子，在一个游戏当中，仅仅具有向左和向右两种运动方向，我们向左运动进行奖励，向右运动进行惩罚，那么为了当前的奖励和未来的延时奖励，我们会采取向左运动的措施，这个可以看成是强化学习的一个缩影。
在Udacity中，给到一个概率论计算的例子蛮有意思，我们一起看下。
在一个世界中，有一个人从start起点走向另一个终点，如下图所示。这个人以一定概率可以从上下左右四个方位进行移动，黑色为墙，无法通过。红色为障碍物，亦无法通过。移动规则如下：
1、移动方向为真实方向的概率为0.8；
2、向非移动方向移动概率为0.1.
计算按上上右右右的移动方式从起点到终点的概率。
这里写图片描述
从图上我们可以看出，上上右右右如果都按真实移动方向概率为0.8^5，同时也可能会有右右上上右的变异概率，即0.1^4*0.8，故而其概率为0.8^5+0.1^4*0.8。

## 2、强化学习与监督学习、非监督学习的区别与联系 ##
监督学习、非监督学习和强化学习并为机器学习三个大类。监督学习依赖于标签数据，是一个逐步逼近函数的过程，比如分类和回归问题。非监督学习是一个仅仅依赖于数据本身，没有标签，相似的数据放在一起，一个聚类的过程。而强化学习本身并不依赖于数据或者数据的标签，依赖于对输入数据预测之后的反馈，介于监督学习和非监督学习之间。
拿周志华老师的西瓜举例子吧：
监督学习：给一些西瓜（data），告诉这些西瓜哪些是好的西瓜、哪些是坏的西瓜（label）。然后训练出一个模型（train_model），拿去预测新进的一批西瓜哪些是好的，哪些是不好的（predict）。
非监督学习：给一些西瓜（data），把他们分成好西瓜坏西瓜。（cluster）
强化学习：给一个西瓜幼苗，给它浇水、施肥（action），看看其西瓜藤是否变粗变绿变强壮了（feedback，反馈），最后成长为一个好西瓜（result）。