一、对POMDP的基本认识
知识总结材料来源:POMDP属于强化学习还是规划技术? - 知乎
部分可观察马尔可夫决策过程(partially observable Markov decision processes,POMDP)是环境状态部分可知动态不确定环境下序贯决策的理想模型,其核心点在于,agent无法知道自己所处的环境状态,需要借助于额外的传感器,或者与其他的agent进行交互等方式才能获知自己的state,能够客观、准确地描述真实世界,是随机决策过程研究的重要分支。
POMDP是一个数学模型。它是现实中一部问题的抽象表达形式。根据这个模型,你可以研究各种具体问题,比如规划技术(planning),比如强化学习(RL)。
planning和RL的差别是什么? 大概的共识是:planning一般假设系统参数已知,比如pomdp的transition function。而强化学习假设系统参数是未知的,所以必须有一个参数学习的过程。
PS: 与马尔可夫相关的常见的四个概念:Markov Chain(马尔科夫链),HMM(隐马尔科夫模型),MDP马尔科夫决策过程,部分可观察马尔科夫过程(POMDP)的关系如下。更多知识,参见清华大学张hao《随机过程及其应用》
二、理论详细解析
三、基于POMDP的在线规划论文解析
用于人群中自主驾驶的意图感知在线POMDP规划 - 云+社区 - 腾讯云
https://link.springer.com/content/pdf/10.1007/s10846-021-01348-8.pdf