全是问题的强化学习—1

本文探讨了强化学习的基本概念,如如何将其用于解决序列决策问题,以及与马尔可夫决策过程的关系。重点介绍了动态规划与强化学习的区别,强调了强化学习无需环境建模但面临试错交互的挑战。
摘要由CSDN通过智能技术生成

强化学习

本专栏主要用来整理思路,其中不免存在一些理解性错误,欢迎指出!

问题1:现实世界问题举例。

现实世界问题举例1:

假设有一架无人机,我们需要操控无人机到达某个指定的地方,无人机需要在每个时刻根据自己的观测输出合适的动作,从而能到达指定的目标点。

现实世界问题举例2:

现在考虑这样一个现实场景任务,一个机器人需要去楼底下的垃圾桶扔垃圾,我们可以将这样一个任务进行分解,机器人首先需要移动到垃圾附近,接下来要拿起垃圾,走到门口,打开门,关门,按电梯,等电梯,坐电梯…扔垃圾,相信你已经发现了,机器人需要在不同时刻作出不同的动作,机器人是依靠什么来做出相应动作的呢?根据传感器的观测输入和任务输入!假设我们现在已经有了这样一种映射:输入传感器观测和任务,输出相应动作,是不是就能完成这样一个任务了呢?

这里需要考虑一个问题,我们通常看见说的端到端的方法,即以传感器观测作为输入,通过网络输出相应动作,并没有涉及到任务。我们考虑上面的例子,如果机器人没有任务输入,那么机器人到达垃圾桶后,是要执行捡起垃圾的动作呢,还是其他动作呢?因为相同观测下,我们可以做出不同的动作,从而能满足不同的任务需求。

对于上述疑问更加常见的一种回答是:我们只需要根据传感器的观测作为输入,通过网络,直接输出动作,任务输入转换为奖励函数的形式,但是对于上述实际例子,设计奖励函数极其困难。

所以现在能否有这样一种解决方案:假设任务输入可以用一种编码来表示,将任务输入作为一种扩充的传感器观测,此时依旧存在奖励函数设计的问题。

问题2:强化学习到底是什么?

强化学习到底是什么?

目前为止的理解,强化学习就是一种解决序列决策问题的方法,生活中的大多数任务都能建模为序列决策问题,强化学习不需要对环境进行建模,通过智能体自主的与环境进行互动来解决序列决策问题,从这个角度来说,强化学习有很大的潜力,但是它也有自己的问题,就是与环境互动,怎么互动?互动的效率高不高?

问题3:强化学习可以解决什么问题?

强化学习可以解决什么问题?

强化学习主要用来解决序列决策问题。

问题4:这样的问题可以建模为什么数学问题?

这样的问题可以建模为什么数学问题?

序列决策问题常见的可以建模为马尔可夫决策过程,所以自然而然的就会想到,解决马尔可夫决策过程这样的数学问题可以用什么方法?

问题5: 解决马尔可夫决策过程还可用什么方法?

解决马尔可夫决策过程还可用什么方法?

常见的解决马尔可夫决策过程的方法主要是动态规划,但是动态规划需要对环境进行建模,在贝尔曼方程中,环境建模表现在状态转移函数是否可知。

问题6:强化学习方法是不可替代的吗?

强化学习方法是不可替代的吗?

目前理解,强化学习方法在解决序列决策问题时的优势在于它通过与环境互动来采集经验,通过经验来学习,不需要对环境进行建模,这是一个巨大的优势,应为对于复杂决策问题来说,对环境进行建模并不现实,从这个角度来说,强化学习的方法貌似不可替代。但是强化学习的方法需要与环境交互试错,目前来看,这在现实环境中很难大规模实现。也许可以考虑虚拟现实的方法,来弥补仿真与现实的差距。

问题7:强化学习的具体内容有哪些?

强化学习的具体内容有哪些?

我们可以先看下面这张图片。
在这里插入图片描述

可以看到,解决马尔可夫决策过程分为基于模型的动态规划方法和无模型的强化学习方法,因为强化学习方法主要是采样的方法,所以分为了蒙特卡洛方法和时间差分方法,目前主流的强化学习算法都是基于时间差分的方法设计。强化学习算法的设计主要可以分为基于值的强化学习算法和基于策略的强化学习算法。

  • 24
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值