强化学习的一点理解

提到强化学习原理就会提到一个四元组(状态,转移概率,动作,激励),这里要把这个四元组修改成(环境,激励,动作,状态)。假设我们是是一个程序精灵,当前处于某个状态,可以从多个候选动作里选择一个执行,还动作会导致两个结果
1 环境会反馈一个激励,来描述动作的优劣
2 动作执行影响精灵本身,让其进去另一个状态
强化学习的目的就是让精灵在探索环境的过程中,逐渐领悟到隐藏在环境中的规律,使其可以在一系列动作中获得最大的正向激励。隐藏在环境中的规律往往是难以描述的,或者是因为数量巨大,或者是因为人们还没法明确理解,否则就可以用有监督学习或无监督学习求解了。比如无人驾驶ai所面对的环境想准确描述出来求解,何其困难?

一个状态下可采取的行为往往不止一个,状态之间的转换也不是确定的,所以状态和行为,状态和状态之间是通过概率连接的。准确而言,激励是环境对(状态,动作)二元组的反馈,同一个动作在不同状态下会的到不同激励。

环境通过激励间接引导精灵学习,这涉及两个关键问题
1 初始化问题
环境是虚无的,激励实际附着在动作之上。比如在无人驾驶中,是不存在一个高高在上的环境的,而是诸如"前方有行人->加速降获得负的激励,减速将获得正的激励"这样的激励定义。学习初始时,人们只能人为定义一些激励。比如游戏AI中,初始时很多行为的激励都是同一个常量,但诸如直接导致game over 的行为会被赋予很大的负激励,导致游戏通关的行为会被赋予很大正的正激励。
2 激励的传播问题
激励关联到了行为上,也就间接关联到状态上,因为状态的激励就是所有关联的行为的激励的期望值,所以状态连接拥有了激励值。强化学习的过程也是激励在状态之间传播的过程。比如一个走迷宫的游戏ai,面对一个二岔路口。左边走10步后就三面墙,是个死路。我们希望精灵在路口处就发现"向左走"这个行为对应的激励远远小于"向右走"的行为。初始化时,只会把左边10步之后所有行为的激励都设置成很大的负激励,但二岔路口处左右两个行为对应的激励是一样的。强化学习训练阶段存在一个探索的概念,训练阶段,允许精灵安一定概率随机选择行为和下一个状态。当精灵探索到三面墙的状态时,会得到激励,激励会影响到前一个状态中,导致精灵面对三面墙的行为。以此类推,初始化后的激励会随着学习的进度逐渐改变,测试阶段,每个状态对应行为所关联的激励已经不是仅仅反应局部地环境,而是全局的环境信息。这是简单的贪心策略也可以引导精灵走出迷宫。
最后,如火如荼的深度学习为强化学习带来了什么呢?深度学习极大的增加了强化学习所能承受的状态数量和行为数量。考虑曾经火热的flappy bird 游戏,游戏状态包括小鸟的位置,速度和方向,管道的位置和速度,通道的位置,虽然用表格可以列举完,但也可以直接把游戏截图直接扔了进深度网络就可以了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值