《强化学习》学习(一)——强化学习的来源:学习

强化学习的来源

学习是人类获取知识的主要形式,也是人类具有智能、提高智能水平的基本途径。建造具有类似人的智能机器是智能控制、人工智能研究的目标。要使机器具有一定的智能,一种方式是靠人事先编程来建立知识库和推理机制,这具有明显的局限性。我们希望机器具有从环境中学习的能力,即自动获取知识、积累经验、不断更新和扩充知识、改善知识性能的能力。

具有学习能力的智能系统具有的特点:

①有一定的自主性:学习系统的性能是自我改进的;

②是一种动态过程:学习系统的性能随时间而变,性能的改进是在与外界反复作用的过程中进行的;

③有记忆功能:学习系统需要积累经验,用以改进其性能;

④有性能反馈:学习系统需要明确它的当前性能与某个目标性能之间的差距,施加改进操作。

具有学习能力的系统或机器统称为Agent(智能体)

学习方法的类型

非监督学习(Unsupervised Learning):完全开环的方式。在生理学上就是巴甫洛夫(Pavlov)的条件反射原理,当我们用一个毫无意义的刺激信号(如铃的响声)同时伴有另一个刺激信号(如食物)反复加给动物的时候,经过一段时间的训练后,动物就会建立一种联想,当再接受到相似的刺激信号时,动物就会产生条件反射。在神经网络学习中,称之为相关规则,即神经网络中的 Hebb学习规则。

监督学习(Supervised Learning):监督学习规则是一种反馈学习规则,当输入信号作用于系统后,观察其输出,由教师提供理想的输出信号,所产生的误差信号反馈给系统来指导学习,在神经网络学习中,称之为最小误差学习规则,或称之为𝛿规则。

到强化学习的桥梁:

观察生物(特别是人)为适应环境的学习过程可以发现它有两个特点:一是人从来不是静止地被动地等待,而是主动对环境作试探;二是从环境对试探动作的反馈信号看,多数情况下是评价性(奖或罚)的,而不是像监督学习那样给出正确答案。生物在行动一评价的环境中获得知识,改进行动方案以适应环境达到预想的目的。具有上述特点的学习就是强化学习(或称再励学习、评价学习,Reinforcement Learning,简记为RL)。

强化学习是学习如何把状态映射到动作,并且使得用数字表示的奖励信号最大。学习者并未被告知采取什么动作,像大多数机器学习的形式一样,但是必须通过试验来查明哪个动作产生最大的奖励。最有趣和最有挑战性的是动作不仅影响当前奖励,而且还影响下一个状态以及整个后继状态序列的奖励。这两个特性—反复试验搜索延迟奖励,是强化学习的两个最突出特点。

探索与获益之间的均衡问题:

存在于强化学习中而不存在于其它学习中的挑战是探索和获益之间的均衡问题。为了获得更多奖励,强化学习Agent必须优先选取以往曾带来最大奖励的动作。但是为了发现这种动作,它必须试验以往未选中的动作。Agent利用已知的东西来获得奖励,也必须进行探索以便将来选择更好的动作。其中的矛盾是获益和探索都不能单独进行而又不能引起任务失败。Agent必须试探多种动作,注重那些看起来最好的动作。在随机任务中,每个动作必须执行多次以获得可靠的奖励估计期望值。获益-探索均衡问题在通常定义的监督学习中从未出现过。

强化学习的问题:

①收敛速度慢。主要是由于在时间或存储空间上算法的复杂性,另一个原因是由于该算法如果在环境状态的集合较大的情况下,收敛于最优行为的速度较慢。在强化学习中,环境只给出定性的评价,而不知道正确的答案。这样,作为目标函数的误差值及其梯度均未知,这必然会增加Agent学习的难度,学习时间也会延长。

②信度分配问题。

强化学习涉及到两个困难问题:一个是时间信度分配问题。设想一个Agent执行了一系列动作,最后得到一个结果,它必须解决如何对每个环境或环境-动作对赋与奖励或惩罚,以调整它的决策,改变它的性能。时间信度分配问题就是对涉及到的每个动作及状态赋予信任或责备,当强化信号延时比较长及环境不确定的时候,信度分配问题就比较难于解决。

另一个问题就是结构信度分配问题。当问题空间太大而无法完全搜索时, Agent必须具有根据相似环境下的经验推测到新的环境的能力,也就是泛化(Generalization)能力。特别是,当状态空间非常大,以致在搜索不可能的情况下,Agent必须根据类似的状态经验推测新的状态。这就存在一个怎样评价状态的相似性问题,海明距离也许是一个测量方法。强化学习中的推广问题要比监督学习困难些,原因是由于监督学习Agent有状态动作模式,而强化学习没有。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UC_Gundam

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值