自适应动态规划（Adaptive Dynamic Programming，ADP）解决动态系统中的最优控制问题--基础入门（附带matlab代码帮助理解）

依然向往诗和远方

已于 2024-06-05 16:32:22 修改

阅读量987

点赞数 12

文章标签：动态规划 matlab 算法

于 2024-06-05 10:48:20 首次发布

本文链接：https://blog.csdn.net/weixin_45890250/article/details/139465376

版权

自适应动态规划（Adaptive Dynamic Programming，ADP）是一种优化控制方法，用于解决动态系统中的最优控制问题。它通过近似动态规划（Approximate Dynamic Programming）的方式来逼近系统的最优控制策略。

一、原理推导---废话少说

逐步推导自适应动态规划（ADP）算法在离散时间线性二次型调节器（LQR）问题中的应用。

1. 问题定义

考虑一个离散时间线性系统：

$x_{k+1} = Ax_{k}+Bu_{k}$

其中，

$x_{k}\in \mathbb{R}^{n}$ 是系统状态向量，
$u_{k}\in \mathbb{R}^{m}$ 是控制输入向量，
$A\in \mathbb{R}^{n\times n}$ 和 $B\in \mathbb{R}^{n\times m}$ 分别是系统的状态矩阵和控制矩阵。

2. 成本函数

目标是最小化以下无穷时间范围内的二次型成本函数：

$J=\sum_{k=0}^{\infty }\gamma ^{k}(x_{k}^{T}Qx_{k}+u_{k}^{T}Ru_{k})$

其中，

$Q\in \mathbb{R}^{n\times n}$ 是正定的状态权重矩阵，
$R\in \mathbb{R}^{m\times m}$ 是正定的控制权重矩阵，
$\gamma \in (0,1)$ 是折扣因子。

3. 动态规划原理

动态规划（DP）方法通过求解贝尔曼方程来找到最优策略。贝尔曼方程为：

$V(x_{k})=min_{u_{k}}[x_{k}^{T}Qx_{k}+u_{k}^{T}Ru_{k}+\gamma V(x_{k+1})]$

其中， $V(x_{k})$ 是从状态 $x_{k}$ 开始的最优成本函数。

假设值函数 $V(x_{k})$ 具有二次型形式：

$V(x_{k})=x_{k}^{T}Px_{k}$

其中，P 是一个对称正定矩阵。

4. 最优控制策略

在这种假设下，贝尔曼方程变为：

$x_{k}^{T}Px_{k}=min_{u_{k}}[x_{k}^{T}Qx_{k}+u_{k}^{T}Ru_{k}+\gamma (Ax_{k}+Bu_{k})^{T}P(Ax_{k}+Bu_{k})]$

对控制输入 $u_{k}$ 求导并设置导数为零，得到最优控制输入：

$u^{_{k}^{*}}=-(R+\gamma B^{T}PB)^{-1}\gamma B^{T}PA x_{k}$

5. 值函数迭代

为了迭代更新值函数矩阵 P，可以使用梯度下降方法。具体地，在每次迭代中，根据当前策略计算状态和成本，然后更新 P：

$P=P+\alpha [(x_{k}^{T}Qx_{k}+u_{k}^{T}Ru_{k}+\gamma x_{k +1}^{T}Px_{k+1})-x_{k}^{T}Px_{k}]x_{k}x_{k}^{T}$

其中， $\alpha$ 是学习率。

6. 数值稳定性和正则化

为了确保矩阵 $R+\gamma B^{T}PB$ 在计算控制输入时的可逆性，可以加入正则化项 𝜖：

$u^{_{k}^{*}}=-(R+\gamma B^{T}PB+\epsilon I)^{-1}\gamma B^{T}PA x_{k}$

并在更新值函数矩阵 $P$ 后，通过监控其特征值确保 $P$ 保持正定。如果发现负特征值，将其设置为一个小的正值 $\epsilon$ 。

二、matlab程序仿真

下面是一个简单的自适应动态规划优化控制的 MATLAB 程序示例。这个程序将解决一个简单的二次型调节器（LQR）问题，用于演示 ADP 的基本思想。

1. 定义系统模型

我们以一个离散时间线性系统为例：

$x_{k+1} = Ax_{k}+Bu_{k}$

其中， $x_{k}$ 是系统状态， $u_{k}$ 是控制输入，A 和 B 分别是系统的状态矩阵和控制矩阵。

2. 定义成本函数

我们的目标是最小化以下二次型成本函数：

$J=\sum_{k=0}^{\infty }(x_{k}^{T}Qx_{k}+u_{k}^{T}Ru_{k})$

其中，Q 和 R 是权重矩阵，确保系统状态和控制输入之间的平衡。

3. ADP 优化控制程序

以下是完整的 MATLAB 程序

% ADP Optimal Control
clear;
clc;

% Define system parameters
A = [1 1; 0 1];
B = [0.5; 1];
Q = eye(2);
R = 1;

% ADP parameters
num_iterations = 100;
gamma = 0.95; % Discount factor
learning_rate = 0.01;

% Initialize value function weights (assuming quadratic form)
P = eye(2);

% Simulation parameters
x0 = [10; 0]; % Initial state
num_steps = 100;
trajectory = zeros(2, num_steps);

% ADP algorithm
for iter = 1:num_iterations
    % Initialize state
    x = x0;
    for k = 1:num_steps
        % Compute control input using current policy
        u = -inv(R + B' * P * B) * B' * P * A * x;
        
        % Store state
        trajectory(:, k) = x;
        
        % Compute next state
        x_next = A * x + B * u;
        
        % Compute cost-to-go
        cost_to_go = x' * Q * x + u' * R * u + gamma * x_next' * P * x_next;
        
        % Update value function weights
        P = P + learning_rate * (cost_to_go - x' * P * x) * (x * x');
        
        % Update state
        x = x_next;
    end
end

% Plot results
figure;
plot(trajectory(1, :), 'r', 'LineWidth', 2);
hold on;
plot(trajectory(2, :), 'b', 'LineWidth', 2);
xlabel('Time step');
ylabel('State');
legend('x1', 'x2');
title('State Trajectory using ADP Optimal Control');
grid on;

致读者：本人小白，也是在学习的过程中，会陆续更新关于强化学习优化控制相关内容，总结后分享给大家，和大家一起讨论学习！如果出现错误，请大家指出，我会更正！！！感谢！！！！

依然向往诗和远方

关注

12
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
自适应动态规划（Adaptive Dynamic Programming，ADP）解决动态系统中的最优控制问题--基础入门（附带matlab代码帮助理解）

我们以一个离散时间线性系统为例：其中，是系统状态，是控制输入，A 和 B 分别是系统的状态矩阵和控制矩阵。我们的目标是最小化以下二次型成本函数：其中，Q 和 R 是权重矩阵，确保系统状态和控制输入之间的平衡。
复制链接

扫一扫