强化学习与自动驾驶-Deep Reinforcement Learning for Autonomous Driving: A Survey

最近一直在看用cv的方法进行轨迹预测,大老板说也许可以用强化学习来做,于是读了21年的 “Deep Reinforcement Learning for Autonomous Driving: A Survey” 这篇文章。这里对文章进行了简单的概括分享,作为我之后工作的一个基础,也希望能帮助到同样做自动驾驶的同学。

原文链接:https://ieeexplore.ieee.org/document/9351818

监督学习不适合自动驾驶任务

机器学习分为监督学习、非监督学习以及强化学习(RL)。自动驾驶研究是一个解决序列决策的问题,得到的最优行动就等于强化学习中的策略。而监督学习不适用于这类研究,原因如下:

  1. 智能体的行为预测改变了未来传感器从环境中接收到的观察结果
  2. 碰撞时间等参数在环境中不确定。需要最大化的随机代价函数来解决;
  3. 学习的环境时刻在变化。有些任务要在驾驶的每一刻预测最优,就要一直学习环境的新配置。

自动驾驶的感知模块(perception module)

  1. 车道位置;
  2. 可行驶区域;
  3. 车辆、行人;
  4. 交通灯状态。

以上的这些从感知模块中获得,为中级抽象表示,经过Scene Understanding生成高级动作或决策模块。这个过程包括场景理解、决策以及规划,而且这个过程往往综合了激光雷达、相机以及雷达所获得的信息。

  • 4
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值