强化学习自动驾驶论文阅读（四）

最新推荐文章于 2024-04-12 16:25:30 发布

不如春风十里见你

最新推荐文章于 2024-04-12 16:25:30 发布

阅读量1.3k

点赞数 1

分类专栏：自动驾驶文章标签：强化学习人工智能

本文链接：https://blog.csdn.net/weixin_45042545/article/details/106950671

版权

（一）paper传送门

Reinforcement Learning with Uncertainty Estimation for Tactical Decision-Making in Intersections

（二）背景知识

强化学习（RL）-------------------------------《Reinforcement Learning：An Introduction》第二版
Double DQN （DDQN）----------------------https://zhuanlan.zhihu.com/p/97853300
随机先验函数（RPF）------------------------https://zhuanlan.zhihu.com/p/106394048
Bootstrapped DQN -----------------------------https://zhuanlan.zhihu.com/p/78273736
贝叶斯方法 ---------------------------------------https://blog.csdn.net/v_july_v/article/details/40984699

（三）摘要

本文利用贝叶斯强化学习，赋予智能体评估模型推荐的行动的能力，通过模拟十字交叉路口自动驾驶，与DDQN算法比较，该方法具有优势。其实就是，本文通过自举经验回放训练了一个ensemble RPF模型，估计Q值的分布，然后使用Q值的分布来估计推荐行动的不确定性，同时也提供agent采取决策的置信度，因此，利用不确定性信息选择未知情况下的安全动作，可以有效消除training distribution内的所有碰撞，以及training distribution外的大部分碰撞。为了方便理解，可以思考一个问题：如果我们将agent放在高速路上训练，测试的时候放在agent从未遇到的十字路口的时候，agent会根据输入的状态帧输出动作吗？答案是：会。这是一个很严重的问题，因此我们必须要让agent能对自己的动作做出评估才行，贝叶斯概率理论正好能一定程度解决这事。（不确定性的重要性可以看Bootstrapped DQN那篇博客）

（四）内容

1 问题

自动驾驶过程是很复杂的，依赖手动预测所有可能情况是不可能的，因此RL作为一种可以从经验轨迹学习的end-to-end方法逐渐被应用到自动驾驶领域，但是传统的RL，agent无法评估决策的不确定性。尽管，目前一些RL研究基于贝叶斯概率理论来评估不确定性，但是侧重于对探索进行优化，并没有提供agent采取决策的置信度。

2 主体

1>APPROACH

这里，DDQN相关知识略。
DDQN的损失函数为：

最低0.47元/天解锁文章

不如春风十里见你

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
强化学习自动驾驶论文阅读（四）

（一）paper传送门Reinforcement Learning with Uncertainty Estimation for Tactical Decision-Making in Intersections（二）背景知识强化学习（RL）-------------------------------《Reinforcement Learning：An Introduction》第二版Double DQN （DDQN）----------------------https://zhuanlan.
复制链接

扫一扫