Robust MPC 4 (鲁棒&随机 MPC)

文章探讨了鲁棒和随机模型预测控制(MPC),强调了在存在不确定性时如何通过反馈控制和决策变量设计来解决在线优化问题。文章介绍了反馈MPC与传统MPC的区别,以及基于第二变分算法的时变控制策略在无约束情况下的最优性。同时提到了在实际应用中可能存在的局限性和对在线故障检测的需求。
摘要由CSDN通过智能技术生成

Robust and Stochastic Model Predictive Control

鲁棒&随机 MPC

前三个小节讨论的传统或确定性 MPC 的一个重要特征是,在线求解的开环最优控制问题的解与给定初始状态下通过 DP 获得的解相同。当存在不确定性并且状态已知或状态观察可用时,反馈控制优于开环控制。因此,在线求解的最优控制问题必须允许反馈,以使其解与 DP 解一致。在鲁棒&随机 MPC 中,决策变量是一系列控制律 μ \bf{\mu} μ,而不是一系列控制动作 u \bf{u} u

以决策变量为策略的模型预测控制(MPC)被称为反馈 MPC,以区别于传统 MPC。这两种形式的 MPC 自然地提供反馈控制,因为在这两种情况下,实施的控制取决于当前状态 x x x。但施加的控制取决于所求解的最优控制问题是开环还是闭环。在开环情况下,决策变量是控制序列,而在闭环情况下,决策变量是反馈策略。

在反馈MPC中,最优控制问题 P N ∗ ( x ) {\mathbb P}_N^*(x) PN(x) 的解为:
μ 0 ( x ) = ( μ 0 0 ( ⋅ ; x ) , μ 1 0 ( ⋅ ; x ) , . . . , μ N − 1 0 ( ⋅ ; x ) ) {\mu ^0}(x) = (\mu _0^0( \cdot ;x),\mu _1^0( \cdot ;x),...,\mu _{N - 1}^0( \cdot ;x)) μ0(x)=(μ00(;x),μ10(;x),...,μN10(;x))

这些组成控制律是由动态规划(DP)确定的控制律的限制,因此依赖于初始状态 x x x,正如符号表示所表示的那样。因此,只需要确定控制律 μ 0 ( ⋅ ; x ) {{\bf{\mu }}^0}( \cdot ;x) μ0(;x) 在初始状态 x x x 处的值,而后续的控制律只需在状态空间的有限子集上确定。在上一小节的例子中, μ 0 ( ⋅ ; x ) {{\bf{\mu }}^0}( \cdot ;x) μ0(;x) 只需要在 x = 1 x=1 x=1 点确定, μ 1 ( ⋅ ; x ) {{\bf{\mu }}^1}( \cdot ;x) μ1(;x) 只需在子集 [-8/13,18/13]确定,以及 μ 1 ( ⋅ ; x ) {{\bf{\mu }}^1}( \cdot ;x) μ1(;x) 只需在子集 [-81/65, 101/65]确定, 而在 DP 解决方案中,这些控制律是在正负无穷无限区间上定义的。

虽然反馈 MPC 在存在不确定性时表现出色,但相关的最优控制问题比确定性 MPC 中采用的最优控制问题复杂得多。决策变量 μ {\bf{\mu }} μ 是一系列控制律,是无限维的;一般来说,每个定律或函数都需要一个无限维网格来指定它。复杂度与解DP方程相当,因此,在存在不确定性时,MPC(在确定性情况下用可解的开环优化问题替代DP)不容易解决。因此,许多研究工作往往致力于牺牲最优性以换取简便性的反馈 MPC 。在当前研究阶段,选择特定的方法可能还为时过早;然而,我们仍然选择了一种方法,即基于管道的 MPC,我们在这里和第5章中描述。我们选择这种方法有一个很好的理由。众所周知,标准的数学优化算法可以用来获得最优的开环控制序列,用于解决最优控制问题。也许较少人知道的是存在一种算法,即第二变分算法,它不仅提供最优控制序列,还提供了一个形式为局部时变反馈定律的解 u ( k ) = u ˉ ( k ) + K ( k ) ( x ( k ) − x ˉ ( k ) ) u(k) = \bar u(k) + K(k)(x(k) - \bar x(k)) u(k)=uˉ(k)+K(k)(x(k)xˉ(k)),其中, u ˉ ( k ) \bar u(k) uˉ(k) 是开环最优控制序列, x ˉ ( k ) \bar x(k) xˉ(k) 为对应的最优开环状态序列。该策略为接近标称状态 x ˉ ( k ) \bar x(k) xˉ(k) 的状态 x ( k ) x(k) x(k) 提供了反馈控制。第二变分算法对于在MPC中的常规使用可能过于复杂,因为它们需要计算 ( x , u ) (x,u) (x,u) 相对于 f ( ⋅ ) f(\cdot) f() l ( ⋅ ) l(\cdot) l() 的二阶导数。当系统是线性的、成本是二次的、扰动是加性的时候,然而,对于无约束的无限滚动情况,最优控制律为 u = K x u=Kx u=Kx。该结果可以表示为时变控制律 u ( k ) = u ˉ ( k ) + K ( x ( k ) − x ˉ ( k ) ) u(k) = \bar u(k) + K(x(k) - \bar x(k)) u(k)=uˉ(k)+K(x(k)xˉ(k)),其中状态序列 x ˉ ( k ) \bar x(k) xˉ(k) 和控制序列 u ˉ ( k ) \bar u(k) uˉ(k) 满足标称差分方程 x ˉ + = A x ˉ + B u ˉ {\bar x}^+=A{\bar x}+B\bar u xˉ+=Axˉ+Buˉ u ˉ = K z , i . e . , \bar u=Kz,i.e., uˉ=Kz,i.e.,。序列 ( x ˉ ( k ) ) (\bar x(k)) (xˉ(k)) ( u ˉ ( k ) ) (\bar u(k)) (uˉ(k)) 是零扰动和某些初始状态的最佳开环解。时变控制律 u ( k ) = u ˉ ( k ) + K ( x ( k ) − x ˉ ( k ) ) u(k) = \bar u(k) + K(x(k) - \bar x(k)) u(k)=uˉ(k)+K(x(k)xˉ(k)) 在无约束情况下显然是最优的;如果 ( x ˉ ( k ) ) (\bar x(k)) (xˉ(k)) ( u ˉ ( k ) ) (\bar u(k)) (uˉ(k)) 位于各自约束集的内部,那么在标称轨迹 ( x ˉ ( k ) ) (\bar x(k)) (xˉ(k))的邻域内,它仍然是受约束情况下的最优控制。

形式为 u ( k ) = u ˉ ( k ) + K ( x ( k ) − x ˉ ( k ) ) u(k) = \bar u(k) + K(x(k) - \bar x(k)) u(k)=uˉ(k)+K(x(k)xˉ(k)) 的时变策略可能是足够的,至少在 f ( ⋅ ) f(\cdot) f() 是线性的情况下。标称控制和状态序列 ( x ˉ ( k ) ) (\bar x(k)) (xˉ(k)) ( u ˉ ( k ) ) (\bar u(k)) (uˉ(k)) 分别可以通过求解 MPC 中通常采用的形式的标准开环最优控制问题来确定,并且反馈矩阵 K K K 可以离线确定。我们展示了这种形式的鲁棒MPC与常规用于确定性系统的在线复杂度相同。它需要一种修改过的在线最优控制问题形式,其中约束被简单地加紧以考虑干扰,从而将不确定系统的轨迹限制在以标称轨迹为中心的管道内。离线计算需要确定修改后的约束和反馈矩阵 K。

需要提醒的一点是,就像前几节介绍的标称模型预测控制器在存在不确定性时可能失败一样,本节介绍的控制器,如果实际的不确定性不符合我们的假设,也可能失败。在鲁棒MPC中,当我们假设的干扰超过了假定的边界时可能会发生这种情况;受控系统只对指定的不确定性具有鲁棒性。需要在线故障诊断和安全恢复程序,以保护系统免受意外事件的影响。

  • 20
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值