Udacity强化学习系列(一)——什么是强化学习,强化学习用来解决什么问题

最近半个月(~10.01)主要初步了解及充电强化学习。强化学习也是机器学习的一个分支,其他两个是我们相对熟悉的监督学习和非监督学习。我们先来看看强化学习主要是什么,可以用来干什么,然后看看与监督学习和非监督学习的区别与联系。学习参考可以看Ref[1],本笔记主要是为了记录在Udacity课程上学习的强化学习内容,以作备忘。

分三个部分来说明:
1. 强化学习简介
2. 强化学习与监督学习、非监督学习的区别
3. 强化学习可以解决什么问题

## 1、强化学习简介 ##
强化学习重点在强化两个字,它是一种决策学习过程,是对一个决策做出奖励或者惩罚,进而促进其行为往我们期望的方向进行的一种学习方式。
举个例子,在一个游戏当中,仅仅具有向左和向右两种运动方向,我们向左运动进行奖励,向右运动进行惩罚,那么为了当前的奖励和未来的延时奖励,我们会采取向左运动的措施,这个可以看成是强化学习的一个缩影。
在Udacity中,给到一个概率论计算的例子蛮有意思,我们一起看下。
在一个世界中,有一个人从start起点走向另一个终点,如下图所示。这个人以一定概率可以从上下左右四个方位进行移动,黑色为墙,无法通过。红色为障碍物,亦无法通过。移动规则如下:
1、移动方向为真实方向的概率为0.8;
2、向非移动方向移动概率为0.1.
计算按上上右右右的移动方式从起点到终点的概率。
这里写图片描述
从图上我们可以看出,上上右右右如果都按真实移动方向概率为0.8^5,同时也可能会有右右上上右的变异概率,即0.1^4*0.8,故而其概率为0.8^5+0.1^4*0.8。

## 2、强化学习与监督学习、非监督学习的区别与联系 ##
监督学习、非监督学习和强化学习并为机器学习三个大类。监督学习依赖于标签数据,是一个逐步逼近函数的过程,比如分类和回归问题。非监督学习是一个仅仅依赖于数据本身,没有标签,相似的数据放在一起,一个聚类的过程。而强化学习本身并不依赖于数据或者数据的标签,依赖于对输入数据预测之后的反馈,介于监督学习和非监督学习之间。
拿周志华老师的西瓜举例子吧:
监督学习:给一些西瓜(data),告诉这些西瓜哪些是好的西瓜、哪些是坏的西瓜(label)。然后训练出一个模型(train_model),拿去预测新进的一批西瓜哪些是好的,哪些是不好的(predict)。
非监督学习:给一些西瓜(data),把他们分成好西瓜坏西瓜。(cluster)
强化学习:给一个西瓜幼苗,给它浇水、施肥(action),看看其西瓜藤是否变粗变绿变强壮了(feedback,反馈),最后成长为一个好西瓜(result)。

3、强化学习可以解决什么问题

阿法狗都知道了,除了这个象棋强决策类问题,强化学习还可以应用到非线性控制、机器人、视频游戏、人机对话、无人驾驶、机器翻译、文本序列预测等[3]。

Ref:
1、https://blog.csdn.net/songrotek/article/details/50572935
2、https://blog.csdn.net/aliceyangxi1987/article/details/73327378
3、https://www.jianshu.com/p/bdfe7989d205

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值