Apollo-规划技术4*

EM(Expectation-Maximum)算法也称期望最大化算法,迭代分为两步:期望步(E步)+极大步(M步)

算法流程:初始化分布参数+重复迭代直到收敛

无人车有三类约束:

  1. Rraffic Regulation
  2. Decisions
  3. Best Trajectory
    在这里插入图片描述
    硬限制+软限制。前者比如交通规则

如果换道生成的策略的trajectory比不换道生成的策略的trajectory要好,那么就换道。
在这里插入图片描述

EM迭代过程:

  1. 生成一条Optimal path
  2. 在该path上对所有障碍物进行投影
  3. 然后生成一个optimal speed profile,在下一个周期该speed profile会送到path optimization
  4. 不断path / speed迭代,直至收敛到最优解

该算法的缺点:贪心算法,收敛到局部最优(但也够用)

分四步走:两步E两步M
在这里插入图片描述
优化问题的核心分三部分:
在这里插入图片描述

想要解决好决策问题,需要理解下面三个圆圈
在这里插入图片描述

  1. rule based(规则)
  2. optimization(优化)
  3. path driven(数据闭环)

先了解清楚这个问题,才去通过大量的数据训练

(下图是老师推荐的课)
在这里插入图片描述

handling uncertainty with model

寻找一个action能够优化反馈函数(优化方式:RL)

RL:
能够给出状态到动作的映射
将见过的题做总结,并且知道了什么类型的题用什么方法或者套路去完成。
思考点:当环境发生剧烈变化,是否还能应对?

图意:看到老虎应该如何行动(往左往右还是直接进他嘴里)
在这里插入图片描述

imitation learning:模仿学习

RL最关心的问题:如何做这个映射

在这里插入图片描述
数据驱动:经过对大量案例的分析,形成模型。当遇到相似问题的时候,可以直接套用数据驱动的模型获得结果,十分快速。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值