【最优控制笔记】——3动态规划之离散系统

Piccab0o

已于 2023-12-04 16:00:16 修改

阅读量1.8k

点赞数 17

分类专栏：最优控制课堂笔记文章标签：笔记动态规划算法

于 2023-11-27 16:47:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_52077466/article/details/134500519

版权

最优控制课堂笔记专栏收录该内容

11 篇文章 10 订阅

订阅专栏

本文探讨了动态规划在求解最优控制问题中的应用，包括经典方法如变分法和庞特里亚金原理，以及智能控制方法。文章重点介绍了最优控制的离散化过程，特别是针对时间、状态和性能指标的离散处理。此外，详细阐述了Bellman最优性原理和在路径规划及离散系统LQR问题中的实例。

摘要由CSDN通过智能技术生成

动态规划

说明：

将前述内容进一步扩展，尝试推广到动态规划问题。

6.0.1 求解最优控制的方法：

1）经典最优控制方法

经典变分法、庞特里亚金极值原理、动态规划方法、微分博弈；

2）智能控制方法

模型预测控制、自适应动态规划、数据驱动控制、平行控制。

6.0.2 最优控制的离散化

1）时间

对时间 $t\in[t_0,t_f]$ 而言，其离散化为：

$\Delta t = \frac{(t_f-t_0)}{N}$

$t^k\in[t_0+k\Delta t,t_0+(k+1)\Delta t]$

2）状态

对状态 $\dot x=f(x(t),u(t),t),\quad x(t_0)=x_0$ 而言，其离散化为：

$x(k\Delta t+\Delta t)≈x(k\Delta t)+f(x(k\Delta t),u(k\Delta t),k\Delta t)\Delta t$

记作： $x(k+1)= f_D(x(k),u(k),k)$

3）性能指标

对性能指标 $J=h(x(t_f),t_f)+\int_{t_0}^{t_f}g(x(t),u(t),t)dt$ ，其离散化为：

在这里插入图片描述

记作：
$J=h_D(x(N),N)+\Sigma_{k=0}^{N-1}g_D(x(k),u(k),k)$

6.1 Bellman最优性原理

6.1.1 定义

动态规划基于Bellman最优性原理，其表述为多级决策过程的最优策略具有如下性质：任意后部子策略都是最优策略，即无论以前状态决策如何，从当前直到最后的每个决策必构成最优子策略。
在这里插入图片描述

数学表述：

对于性能指标：

$J(u,x_0,k_0)=h_D(x(N),N)+\Sigma_{k=k_0}^{N-1}g_D(x(k),u(k),k)$

将其最优控制下的性能指标称为“值函数”，记为：

$V(x_0,k_0)=min_{u\in U}J(u,x_0,k_0)$

根据最优性原理，如下Bellman方程是最优控制的充要条件：

在这里插入图片描述

说明：

→动态规划的最优控制策略需要从最后阶段向前推（这是关键），属于多阶段决策，整体最优一定是局部最优。

→最优控制问题本质上是时间滞后问题。

6.1.2-例子（路径规划问题）

推算过程省略
在这里插入图片描述

可以对比：
①从后向前推：确保每一步往后都是最优的，即符合Bellman最优性原理；
②从前向后推：若每一步都取最小的，容易使决策出现问题
这说明：Bellman最优性原理通过限制必须做出的决策数量，减少了计算的数量。

说明：

整个算法是遍历的，所有点只进入一次，每个点只记录最优值即最优值代表的下一步怎么走（只下一个，而不是之后的所有）→多级决策过程

6.2 离散系统的动态规划

6.2.1 思路

根据Bellman最优性原理，系统的性能指标由以下两部分组成：

在这里插入图片描述
对应的，其分别代表优化目标 $L$ （如从当前点到下一点的最短距离）和总体消耗 $J_{k+1}$ （如该步之后总体的最小消耗）。

因此，从第 $k$ 步开始的最优损耗可以写作：

在这里插入图片描述

该式即动态规划的函数方程，满足离散系统的最优性原理。

6.2.2-例子（离散系统LQR问题的动态规划求解）

问题描述：

仍考虑系统：
在这里插入图片描述
其性能指标：

期望在 $[i, N]$ 时间上，找到令 $J_i$ 最小的最优控制 $u_k^*$ ，其中，初始状态 $x_i$ 给定，终端状态 $x_N$ 不确定。

解决：

从后向前递推的思路很像前述“离散系统最优控制不定终值”情况下的求解，首先从最末端， $k = N$ 时：

在这里插入图片描述
则有：

这里 $L^k(x_k,u_k)=\frac{1}{2}x_{N-1}^\mathrm{T}Qx_{N-1}+\frac{1}{2}u_{N-1}^\mathrm{T}Ru_{N-1}$ ，根据最优性原理，需要找到 $u_{N-1}^*$ 使之最小。

将式(1)代入(4)可得：

在这里插入图片描述
因为没有约束，所以最小值点通过“导数=0”的点确定：

在这里插入图片描述
即：

类似地，这里可以定义Kalman增益：

在这里插入图片描述
进而，将控制量简写成： $u_{N-1}^*=-K_{N-1}x_{N-1}$ ，代入式(5)得性能指标最小为：

在这里插入图片描述

从上式易知，如果假设 $S_{N-1}$ 为：

在这里插入图片描述
则性能指标 $J_k$ 的表达式便可以统一，类似于前述终端状态不定时LQR问题的求解，类似地，各参量都可以写作：

在这里插入图片描述
其中，式(16)被称为the Joseph stabilized Riccati equation。

6.2.3 直接迭代求解法：

在这里插入图片描述

$Page_{33}-Page_{38}$

6.2.4 查表法：

在这里插入图片描述
$Page_{43}-Page_{48}$

关注

17
点赞
踩
18

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Piccab0o CSDN认证博客专家 CSDN认证企业博客

码龄4年

24: 原创

1万+: 周排名

4万+: 总排名

3万+: 访问

: 等级

584: 积分

2923: 粉丝

341: 获赞

16: 评论

364: 收藏

私信

关注

热门文章

分类专栏

现代控制理论课堂笔记 7篇
最优控制课堂笔记 11篇

最新评论

【最优控制笔记】——2离散系统最优控制概述
frs.a: 看的什么书做的笔记呀
【现代控制理论笔记】——第六章：状态观测器
我试试来: 系统状态方程已知、输入输出可测的情况下为什么不能直接反解x呢
【最优控制笔记】——4自适应动态规划1
qq_44189536: 你好，请问在哪里听魏老师的课啊？
【机器人控制】——自适应抗扰控制（ADRC）
weixin_44425356: 大佬咨询下，ADRC是不是相当于PID里面没有I项，这种累计误差靠什么消除呢
【现代控制理论笔记】——第二章：能控性分析
CSDN-Ada助手: 恭喜您撰写了第16篇博客！标题中的“现代控制理论笔记”让我对您的博客产生了浓厚的兴趣。阅读您的第二章1后，我对您的深入分析和详细阐述感到赞赏。您对现代控制理论的理解和表达能力令人印象深刻。在下一步的创作中，或许您可以考虑加入一些实例或案例，以丰富读者的阅读体验。这样，读者可以更好地将理论与实际应用联系起来，并从中获得更多的启发。谦虚地说，这只是一个建议，希望对您的创作有所帮助。期待您未来更多精彩的博客！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。