- 强化学习的基本结构是什么?
强化学习本质上是智能体和环境的交互过程。具体来说,就是智能体根据所观测到的环境的状态输出一个动作或者决策作用在环境上,同时环境会输出下一个状态和奖励。智能体就是想要获得最大化的收益。
- 强化学习相对于监督学习为什么训练过程会更加困难?
由于强化学习的样本都是与时间有关联的,不是独立同分布的。强化学习没有一个好的监督者,它需要通过环境输出的奖励来判断动作的好坏。强化学习是奖励是延迟的。
- 强化学习的基本特征有哪些?
强化学习通过试错探索来了解环境,训练出最佳的策略。强化学习与时间的关联是非常重要的,他输入的数据都是与时间有关系的。强化学习只能得到延迟的奖励。强化学习中得每一个动作都会改变环境得状态
- 近几年强化学习发展迅速的原因有哪些?
由于硬件设备的发展,各行各业的人才投入到强化学习中,为其发展提供了许多经验积累。深度学习的发展,使得强化学习的细节方面得以简化。
- 状态和观测有什么关系?
状态是环境一个完整的描述,而观测是智能体所能够感知到的部分,他一般只能描述环境的一部分状态。可能遗漏一些信息
- 一个强化学习智能体由什么组成?
强化学习的智能体由策略函数、价值函数、模型三个部分构成。其中智能体通过策略函数在动作空间中选取最佳动作。价值函数表示当前状态的好坏,对当前状态进行评估。模型表示智能体对环境的理解。
- 根据强化学习智能体的不同,我们可以将其分为哪几类?
根据智能体是基于策略还是基于价值的,可以分为基于价值函数的强化学习和基于策略函数的强化学习。其中基于策略的强化学习直接对策略进行优化。根据是否能够理解环境分为有模型强化学习和免模型强化学习。
- 基于策略迭代和基于价值迭代的强化学习方法有什么区别?
基于策略迭代的强化学习方法,智能体会制定一套动作策略,即确定在给定状态下需要采取何种动作,并根据该策略进行操作。强化学习算法直接对策略进行优化,使得制定的策略能够获得最大的奖励;可以应用于行为集合规模庞 大或是动作连续的场景 。基于价值迭代的强化学习方法,智能体不需要制定显式的策略,它维护一个价值表格或价值函数,并通过 这个价值表格或价值函数来选取价值最大的动作。基于价值迭代的方法只能应用在离散的环境下。
- 有模型学习和免模型学习有什么区别?
针对是否需要对真实环境建模,强化学习可以分为有模型学习和免模型学习。有模型学习是指根据环境中的经验,构建一个虚拟世界,同时在真实环境和虚拟世界中学习;免模型学习是指不对环境进行建模, 直接与真实环境进行交互来学习到最优策略。免模型学习需要大量的采样来估计状态、动作及奖励函数,从而优化动作策略。免模型学习的泛化性要优于有模型学习,原因是有模型学习需要对真实环境进行建模,并且虚拟世界与真实环境之间可能还有差异,这限制了有模型学习算法的泛化性。
- 如何通俗理解强化学习?
强化学习其实就是通过不断地试错,探索出最好的决策,然后使智能体得到最大的奖励。由于我们并不能控制每一状态的奖励和环境,因此我们只能去控制决策。
强化学习第一章思维导图