最近一直在看用cv的方法进行轨迹预测,大老板说也许可以用强化学习来做,于是读了21年的 “Deep Reinforcement Learning for Autonomous Driving: A Survey” 这篇文章。这里对文章进行了简单的概括分享,作为我之后工作的一个基础,也希望能帮助到同样做自动驾驶的同学。
原文链接:https://ieeexplore.ieee.org/document/9351818
监督学习不适合自动驾驶任务
机器学习分为监督学习、非监督学习以及强化学习(RL)。自动驾驶研究是一个解决序列决策的问题,得到的最优行动就等于强化学习中的策略。而监督学习不适用于这类研究,原因如下:
- 智能体的行为预测改变了未来传感器从环境中接收到的观察结果;
- 碰撞时间等参数在环境中不确定。需要最大化的随机代价函数来解决;
- 学习的环境时刻在变化。有些任务要在驾驶的每一刻预测最优,就要一直学习环境的新配置。
自动驾驶的感知模块(perception module)
- 车道位置;
- 可行驶区域;
- 车辆、行人;
- 交通灯状态。
以上的这些从感知模块中获得,为中级抽象表示,经过Scene Understanding生成高级动作或决策模块。这个过程包括场景理解、决策以及规划,而且这个过程往往综合了激光雷达、相机以及雷达所获得的信息。