文章目录
第五章 百度Apollo规划技术介绍(四)
understand more on the MP difficulty
Soft constraints and Hard Constraints
-
Traffic Regulations 红绿灯、双黄线,通过数学转化为约束条件
-
Decisions 决策问题,可以用动态规划方式处理
-
Best Trajectory 平滑、优化,在本车道生成一条策略,换道的时候生成一条策略,再比较生成的trajectory不同
3D optimization problem
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TJARdAZ5-1596018278612)(C:\Users\xiaomeiyan\AppData\Roaming\Typora\typora-user-images\image-20200729172300090.png)]
-
解决高维空间优化的两种方法:
- 离散化,生成trajectory
- Expectation Maximization(期望最大化)。其基本思想是降维处理,先在一个维度上进行优化,然后在优化的基础上再对其它维度进行优化,并持续迭代以获得局部最优解。
- 降低维度、space方法、并行化的方式
-
Expactation Maximization(期望最大化)
- 思想:迭代优化
- 无人车:先生成一条Optimal Path,在此基础上,对所有障碍物进行投影,再生成 optimal speed profile,不断地迭代生成path speed,收敛得到最优解
- 缺点:本质上也是贪心算法,只能收敛到local optimum,不一定能收敛到gobal optimum
- 无人车四个步骤:
- 两个E step:根据隐含数据的假设值,给出当前的参数的极大似然估计
- 两个M step:重新给出未知变量的期望估计,应用于缺失值
- [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QPggAtZ2-1596018278616)(C:\Users\xiaomeiyan\AppData\Roaming\Typora\typora-user-images\image-20200729172300090.png)]
Optimization Key Step
-
优化问题的核心:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SHGUspZc-1596018278618)(C:\Users\xiaomeiyan\AppData\Roaming\Typora\typora-user-images\image-20200729174117008.png)]
优化问题的关键步骤包括: Objective Functional、Constraint、Solver。目标函数是一些关键特征的线性组合。约束主要包括交通灯、碰撞以及动态需求等。优化求解方法的目的是找到最佳路径,包括前面讲的动态规划+二次规划的启发式方法。
Planning DP
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uQFxgdRD-1596018278620)(C:\Users\xiaomeiyan\AppData\Roaming\Typora\typora-user-images\image-20200729174252955.png)]
对于非线性优化问题,通常都是分两步走,一是动态规划,先找一个粗略解。然后再是二次规划,从粗略解出发,找出一个最优解。
Planning 2.0 Path QP
-
衡量平滑性的三个指标:
- speed:开车速度
- acceleration:加速度
- jerk:踩油门/刹车的速度
-
加入这三个指标,先用动态规划得到一个粗略解、构造凸空间、二次优化得到最优解
- 虽然不能解决所有问题,但可以在力所能及的范围内做到非常好
- 两个最优解之间差的距离非常小![在这里插入图片描述](https://img-blog.csdnimg.cn/2020072918312033.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDk1Mjc4Mw==,size_16,color_FFFFFF,t_70
-
保证帧与帧之间的的连续性,对control的稳定性很重要
规划问题如何解决逆行
根据speed profile估计当前逆行障碍物的位置,再修正path,再根据当前path的speed处理速度
Apollo无人车规划模块的进展
reinforcement learning and data driven approaches
- 解决好规划问题,需要把两个方面做好
- 数据闭环(Data Driven)
- 原先的重复性经验,基于经验的方法,只不过这些经验是模型通过大量的样本数据学习得到的
- 基于规则(rule based)的方法。
- 在基于规则的方法的基础上,对问题形成一定的认识,通过把问题抽象成更加通用的问题,定义目标函数来进一步优化问题。
- 数据闭环(Data Driven)
Handling uncertainty with model
Reinforcement Learning
-
RL的本质是建立mapping 的过程,是遇到了问题再解决的思路
- 我遇到一个case,但我解决不了
- 看是不是什么地方解决不了
- 把这个地方进行拓展
-
RL的思想就是不断的通过在目标不变的情况下,随机地去找一个action,然后看结果怎么样,不好的话就进行修正,或者说策略进行修正,逐渐收敛到一个mapping,使得这个mapping能够optimize reward function given all states
observed state
- 通过运动轨迹判断意图
- 用POMDP这个model去model一些uncertainty
end to end imitation learning
- 证明在一定情况下,在一定data量的情况下,可以得到一个能接受的结果
- 本质上来讲,还是一个imitation learning
distribution shifting problem蝴蝶效应问题
-
在研究的时候,一个一点点的变化,就会引起周围环境的发生很剧烈的变化
-
所以在进行训练的时候,随着数据量的增加,本身系统是很脆弱的,因为没法证明他有李亚普诺富稳定性,即到t时间的时候无法控制它的误差
其他问题
- Multimodality
- model loss function 要设计正确
- Not scalable
- Need exposure to large amount of dataset
如何解决?
- 通过寻找一个action的mapping,使得他的那个maximize的reward function,这是整个RL中最关心的问题
- data driven只是加速总结,让系统变得更快