(一)paper传送门
Reinforcement Learning with Uncertainty Estimation for Tactical Decision-Making in Intersections
(二)背景知识
强化学习(RL)-------------------------------《Reinforcement Learning:An Introduction》第二版
Double DQN (DDQN)----------------------https://zhuanlan.zhihu.com/p/97853300
随机先验函数 (RPF)------------------------https://zhuanlan.zhihu.com/p/106394048
Bootstrapped DQN -----------------------------https://zhuanlan.zhihu.com/p/78273736
贝叶斯方法 ---------------------------------------https://blog.csdn.net/v_july_v/article/details/40984699
(三)摘要
本文利用贝叶斯强化学习,赋予智能体评估模型推荐的行动的能力,通过模拟十字交叉路口自动驾驶,与DDQN算法比较,该方法具有优势。其实就是,本文通过自举经验回放训练了一个ensemble RPF模型,估计Q值的分布,然后使用Q值的分布来估计推荐行动的不确定性,同时也提供agent采取决策的置信度,因此,利用不确定性信息选择未知情况下的安全动作,可以有效消除training distribution内的所有碰撞,以及training distribution外的大部分碰撞。为了方便理解,可以思考一个问题:如果我们将agent放在高速路上训练,测试的时候放在agent从未遇到的十字路口的时候,agent会根据输入的状态帧输出动作吗?答案是:会。这是一个很严重的问题,因此我们必须要让agent能对自己的动作做出评估才行,贝叶斯概率理论正好能一定程度解决这事。(不确定性的重要性可以看Bootstrapped DQN那篇博客)
(四)内容
1 问题
自动驾驶过程是很复杂的,依赖手动预测所有可能情况是不可能的,因此RL作为一种可以从经验轨迹学习的end-to-end方法逐渐被应用到自动驾驶领域,但是传统的RL,agent无法评估决策的不确定性。尽管,目前一些RL研究基于贝叶斯概率理论来评估不确定性,但是侧重于对探索进行优化,并没有提供agent采取决策的置信度。
2 主体
1>APPROACH
这里,DDQN相关知识略。
DDQN的损失函数为: