【论文阅读】Formal Verification of Intelligent Hybrid Systems that are Modeled with Simulink and the Reinforcement Learning Toolbox
FM 2021: Formal Methods pp 349-366
同一批作者另一篇发表在International Conference on Formal Engineering Methods
ICFEM 2018
文章目录
摘要
强化学习(RL)是一种在动态和不确定环境下控制自主混合系统(HSs)的强大技术,但很难保证其在安全关键应用中的正确行为。为了正式保证安全行为,需要一个形式化系统描述,这在工业设计过程中通常是不可用的,而且在RL的不可预测、试错学习过程中难以获得。
本文提出了一种在 Simulink 中与 RL Toolbox 一起建模的具有嵌入式 RL 组件的智能 HS 的半自动演绎验证方法。
关键思想:
- 首先,以差分动态逻辑的方式捕获具有混合契约的RL组件的安全相关行为。
- 其次,利用交互定理证明器KeYmaeraX演绎地验证了被RL组件取代的整个系统的安全特性。为了使这成为可能,通过将现有的从 Simulink 转换扩展到差分动态逻辑以支持 RL 组件来精确捕获工业设计的智能 HS 的语义。
- 第三,通过从混合合约中自动派生运行时监视器(automatically deriving runtime monitors from our hybrid contracts.) 来确保合约在运行时得到遵守。 通过在工厂环境中验证自主智能机器人的碰撞自由来证明方法的实际适用性、可扩展性和灵活性。
背景
混成系统:混合系统(HSs)结合了离散的和连续的行为。在工业中已经广泛使用MATLAB Simulink来对HS进行建模,以处理它的复杂性。
强化学习:RL是一类机器学习技术,其中代理通过与环境的交互获得经验来学习行为策略。它允许学习适应性强的智能控制器,通常能够优于手动设计的控制器。然而,RL组件通常在试错方法中学习,因此它们本身是不安全