23年8月来自德国FZI研究中心和卡尔斯鲁厄大学的论文"Exploring the Potential of World Models for Anomaly Detection in Autonomous Driving"。
近年来,自动驾驶取得了显著进步。虽然自动驾驶汽车在封闭环境中表现出很高的性能,但在遇到意外情况时会遇到困难。与此同时,世界模型出现在基于模型的强化学习领域,作为一种使智体能够根据潜动作预测未来的方式。这使得在稀疏的奖励和复杂的控制任务中取得了突出的结果。这项工作概述如何利用世界模型在自动驾驶领域进行异常检测。作者提供了世界模型的特征,并将单个组件与先前在异常检测方面的工作联系起来。
世界模型起源于强化学习领域。在这里,对于每一个状态转换,智体都会额外获得奖励。考虑到最大化预期累积回报的目标,问题来了:该采取哪些动作?在无模型的强化学习中,根据其与环境的交互,智体直接为此目标进行优化。然而,在基于模型的强化学习中,为了预测环境的动力学,首先要学习动力学模型。这样,代价高昂的策略学习可以完全在动力学模型中完成。
虽然这种动力学模型的世界模型一词可以追溯到人工智能的早期[16],但在现代,Ha&Schmidhuber创造了这个词[17]。然而,它们没有提供明确的定义。他们是第一个建模“从高维视觉数据观察的动态,其中输入是一系列原始像素帧”[17]。LeCun将世界模型广义地定义为“世界如何运作的内部模型”[18]。跟从Kendall[19]的“世界模型是一种生成模型,能够预测以动作为条件的下一种状态”。Chen[20]描述世界模型,根据其能提供“抽象感知表征”和“明确的未来预测”。结合这些概念,作者定义一个世界模型如下:“世界模型将感官观察嵌入潜在状态,预测动作条件下的状态转换,并能够解码到观察空间。”
如图所示:一个推理过程中的世界模型,给定在时间t高维的观测结果ot . . . ot−i、以及过去和规划的动作at−i . . . at+j 。用表征模型p(st|st−1,at−1,ot)计算直到st的所有状态转换,其中首先嵌入观测值。嵌入动作是可能的,但也是可选的。未来的状态转换可以用基于马尔可夫假设的预测模型p(st|st−1,at−1)来计算,其中每个状态只取决于其先前的。利用观测模型p(ot|st),重建观测可以从状态st进行解码得到。
为了对智体和现实环境的交互进行建模,采用部分可观测马尔可夫决策过程(POMDP)中的术语,并假设马尔可夫性,如图所示。可以假设,环境中没有任何参与者能够访问其潜状态。因此,在自动驾驶领域,任何控制动作者的智体都依赖于其自身的感官观察。智体可以被理解为控制车辆的软件组件,将其传感器数据作为观测值。每次动作都会更新环境的内部状态。
世界模型对于异常检测尤其有趣,因为它们能够执行所有检测方法:由于嵌入模型通常作为随机VAE实现,因此它具有重建和生成能力。转换模型的核心目的是预测。对于嵌入模型和转换模型,认知不确定性估计是可能的。最后,由于可以访问该模型,因此功能是可用的。这使得世界模型能够在一次运行中检测到各种各样的异常,而其他情况下则需要大量的模型。此外,世界模型的端到端训练方法允许表现出正常的共同定义。
定义一些假设如下:
- 为了正确定义异常,有必要对训练和评估数据进行全面控制。
- 为了准确定义正态性,异常不能作为训练数据的一部分。
- 对于评估,需要人为定义的异常,这必须与训练数据定义的正态性一致。
异常检测方法可以基于世界模型在一些类别上实现:重建(reconstructive), 生成式(generative), 预测的(predictive), 置信分(confidence score), 和特征提取(feature extraction)。