对POMDP的认识

一、对POMDP的基本认识

 

知识总结材料来源:POMDP属于强化学习还是规划技术? - 知乎

        部分可观察马尔可夫决策过程(partially observable Markov decision processes,POMDP)环境状态部分可知动态不确定环境下序贯决策的理想模型,其核心点在于,agent无法知道自己所处的环境状态,需要借助于额外的传感器,或者与其他的agent进行交互等方式才能获知自己的state,能够客观、准确地描述真实世界,是随机决策过程研究的重要分支。

          POMDP是一个数学模型。它是现实中一部问题的抽象表达形式。根据这个模型,你可以研究各种具体问题,比如规划技术(planning),比如强化学习(RL)。

        planning和RL的差别是什么? 大概的共识是:planning一般假设系统参数已知,比如pomdp的transition function。而强化学习假设系统参数是未知的,所以必须有一个参数学习的过程

PS: 与马尔可夫相关的常见的四个概念:Markov Chain(马尔科夫链),HMM(隐马尔科夫模型),MDP马尔科夫决策过程,部分可观察马尔科夫过程(POMDP)的关系如下。更多知识,参见清华大学张hao《随机过程及其应用》

preview

二、理论详细解析

无处不在的小土-pr_chapter15

三、基于POMDP的在线规划论文解析

用于人群中自主驾驶的意图感知在线POMDP规划 - 云+社区 - 腾讯云

https://link.springer.com/content/pdf/10.1007/s10846-021-01348-8.pdf

  • 8
    点赞
  • 61
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值