在MDP系列博客中,我们以一个Agent在4*3网格中寻找终点最优的路径策略为例,论述了MDP问题的原理和求解。有了MDP讲解作为基础之后,我们就可以正式的切入到“强化学习”的学习中来了。强化学习的目的是通过观测到的reward来为当前环境学习一个(近似)最优的策略。在MDP系列问题中,我们有一个完整的环境模型并且reward函数也是已知的。
在本文中我们将假设一个fully observable的环境(即当前状态可以通过每一步的感知获取)。另一方面,我们假设Agent 不知道环境是如何运行或者agent的动作是如何执行的,即我们允许出现概率动作结果。因此,agent面临的是一个未知的马尔科夫决策过程问题。首先,我们介绍三种agent的运行模式:
- Utility-based agent:学习状态的一个效用函数,并使用该函数来选择使得效用期望值最大化的动作。
- Q-LEARNING:学习一个动作-效用函数,或者称之为Q-function,即在给定state的情况下分析给定动作的效用期望。
- Reflex agent:直接学习一个从state到actions的映射。
其中,utility-based agent必须有一个明确的环境模型,明确知道采用一个action将导致什么样的states。Q-learning agent可以通过比较当前可用选择对应的效用期望,它并不需要知道他们的结果,因此明确的环境模型并非是必须的。另一方面,由于他们并不知道动作所导致的结果,Q-learning不能够对未来进行展望, 因此它的学习能力也会受到限制,后面将对此进一步介绍。
我们将介绍两种学习的策略,分别是passive learning 和active learning。其中passive learning中agent的策略是固定的,其目标是学习状态的效用(或状态<

本文深入探讨了在未知马尔科夫决策过程(MDP)中,被动学习(Passive Learning)的三种模式:基于效用的代理、Q学习和反射代理。重点介绍了被动学习的策略,包括直接效用估计、自适应动态规划(ADP)和时间差分(TD)学习。直接效用估计通过平均奖励来更新状态效用,而ADP和TD学习则利用状态间的依赖关系改进策略。TD学习在不需要完整环境模型的情况下也能进行学习,虽然速度较慢但计算成本更低。
最低0.47元/天 解锁文章
1422

被折叠的 条评论
为什么被折叠?



