强化学习与自动驾驶-Safe, Multi-Agent, Reinforcement Learning for Autonomous Driving

本文探讨了如何使用策略梯度迭代避免马尔科夫决策过程,并将驾驶策略分为安全的非学习部分和学习的舒适部分。安全部分确保遵守硬约束,如防止碰撞,而学习部分则借鉴人类驾驶员经验。通过引入选项图,提高了驾驶策略的解释性和效率。
摘要由CSDN通过智能技术生成

读了一篇文章 “Safe, Multi-Agent, Reinforcement Learning for Autonomous Driving”,因为我本人不是做强化学习的,所以读的路上磕磕绊绊…除了阅读原文,还借鉴了一些他人的理解,链接也贴在下面了,有细节不懂的强烈建议看看!之后才对文章有个大概认识,我用自己的理解顺序来给大家介绍,如有问题欢迎批评指正。

原文链接:https://arxiv.org/pdf/1610.03295.pdf
参考链接1:https://zhuanlan.zhihu.com/p/31147349?from_voters_page=true
参考链接2:https://zhuanlan.zhihu.com/p/25673276?from=timeline

背景

主车在超车、让路、合并、左右转弯和向前推进等情况,需要与其他道路使用者开展技巧谈判。本文应用深度强化学习于长期驾驶策略的形成问题。自动驾驶区别其他任务在于需要确保功能安全以及不能用马尔可夫决策过程(MDP)模型,因为它不可预测其他智能体的行为。这篇文章的贡献有三:

  • 交代了如何使用策略梯度迭代,从而避免使用马尔可夫决策;
  • 把整个分析自动驾驶的过程分解为愿望政策Desires(需要学习)和有硬约束的轨迹规划(不需要学习);
  • 引入一个分层的时间抽象,称为Option Graph

第一个贡献点

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值