QP 问题（Quadratic Programming, 二次规划）

BineHello

已于 2025-03-08 21:54:04 修改

阅读量1.2k

点赞数 17

文章标签：算法人工智能强化学习自动驾驶线性代数

于 2025-03-08 21:48:33 首次发布

本文链接：https://blog.csdn.net/weixin_43673156/article/details/146122964

版权

QP 问题（Quadratic Programming, 二次规划）是什么？

QP（Quadratic Programming，二次规划）是一类优化问题，其中目标函数是二次型函数，约束条件可以是线性等式或不等式。

QP 问题是线性规划（LP，Linear Programming）的扩展形式，广泛应用于最优控制、机器学习、金融优化、信号处理等领域。

🚩 一、QP 问题的数学定义

标准形式的 QP 问题如下：
$\min_{x} \quad \frac{1}{2} x^T Q x + c^T x$

$\text{s.t.} \quad Ax \leq b, \quad Ex = d$

其中：

变量： $\in \mathbb{R}^n$ （优化变量）
目标函数：
- $Q$ 是 $\times n$ 对称矩阵（当 $Q$ 是正定时，问题是凸的）
- $c$ 是 $n$ -维向量（线性项）
约束：
- $\leq b$ （线性不等式约束，约束变量取值范围）
- $E x = d$ （线性等式约束）

🚩 二、QP 问题的分类

1. 线性二次规划（Convex QP）

如果矩阵 $Q$ 正定（ $\succ 0$ ），则问题是凸优化问题，可以用梯度下降、KKT 条件、内点法（Interior Point Method）等方法求解。
应用：
- 机器人轨迹优化（无人机规划）
- 预测控制（Model Predictive Control, MPC）
- 机器学习（SVM 分类）

2. 非凸二次规划（Non-convex QP）

如果 ( Q ) 非正定（可能有负特征值），则问题可能有多个局部最优解，求解更复杂，需要启发式方法或全局优化方法。
应用：
- 经济学中的投资组合优化
- 结构优化（力学系统）

3. 约束二次规划

约束类型：
- 仅等式约束（Equality Constrained QP, EQP）
- 仅不等式约束
- 混合等式/不等式约束
应用：
- 机器学习中的拉格朗日对偶（Lagrange Duality）
- 约束最优控制（MPC）

🚩 三、QP 问题的求解方法

1. KKT 条件（Karush-Kuhn-Tucker 条件）

QP 问题满足 KKT 条件，其最优解满足：

$\begin{aligned} Qx + c + A^T \lambda + E^T \mu &= 0, \\ Ax - b &\leq 0, \quad \lambda \geq 0, \\ Ex - d &= 0, \quad \text{(等式约束)} \end{aligned}$

其中：

$\lambda$ 是不等式约束的拉格朗日乘子
$\mu$ 是等式约束的拉格朗日乘子

如果 ( Q \succ 0 )（正定），则 KKT 方程是一个线性方程组，可以直接求解最优解。

2. 内点法（Interior Point Method）

适用于大规模 QP 问题，收敛快。
常用于最优控制（MPC）和机器学习（SVM）。

3. 主动集法（Active Set Method）

适用于小规模 QP 问题。
适合处理约束随时间变化的情况，如实时轨迹优化。

4. 梯度投影法（Projected Gradient Descent）

适用于大规模约束 QP 问题，如约束神经网络训练。

🚩 四、QP 在强化学习、控制和无人机中的应用

1. 在最优控制（MPC, Model Predictive Control）中的应用

在 MPC（模型预测控制）中，每个时刻求解一个 QP 问题，以计算最优控制输入：
$\min_u \quad \sum_{t=0}^{T} \left( x_t^T Q x_t + u_t^T R u_t \right)$
$\text{s.t.} \quad x_{t+1} = A x_t + B u_t, \quad x_t \in X, \quad u_t \in U$

这里的 QP 优化保证：

控制输入 $u_t$ 平滑变化
轨迹在约束范围内

2. 机器人运动规划（Quadratic Trajectory Optimization）

无人机或机械臂轨迹规划：
$\min_x \quad \sum_{t=1}^{T} (x_t - x_{\text{target}})^T Q (x_t - x_{\text{target}})$
$\text{s.t.} \quad x_{t+1} = f(x_t, u_t), \quad x_{\text{min}} \leq x_t \leq x_{\text{max}}$

3. 机器学习（支持向量机 SVM）

SVM 的优化问题：
$\min_w \quad \frac{1}{2} w^T w$
$\text{s.t.} \quad y_i (w^T x_i + b) \geq 1, \forall i$
这个优化问题也是一个 QP 问题，使用拉格朗日乘子法求解。

🚩 五、QP 和 DP（动态规划）的关系

1. 经典 QP vs DP

特性	QP (Quadratic Programming)	DP (Dynamic Programming)
目标函数	二次型函数	递归求解最优策略
约束	线性等式/不等式	无约束（或通过贝尔曼方程处理）
求解方法	KKT, 内点法, 主动集法	递归求解, 迭代法
适用领域	最优控制、金融优化	强化学习、最优轨迹

2. QP 在 DP 问题中的应用

在动态规划（DP）问题中，某些最优控制问题（如LQR, MPC）的子问题可以转化为 QP 问题：

LQR（线性二次调节）：
- 线性系统 + 二次成本 → QP 问题
- 通过求解里卡提方程得到最优反馈控制律
MPC（模型预测控制）：
- 每个时刻求解一个 QP 问题，计算最优控制输入 $u_t$
- 确保控制输入平稳变化，满足状态/输入约束

🚩 六、总结

QP（Quadratic Programming，二次规划） 是优化问题的一种特殊形式，目标函数为二次型，约束为线性等式或不等式。
QP 的求解方法：KKT条件、内点法、主动集法、梯度投影法等。
QP 在最优控制、机器学习、金融优化等领域广泛应用，特别是在MPC、LQR、轨迹优化、SVM等问题中。

在强化学习和最优控制研究中，掌握QP 和 DP的关系非常重要，可以帮助解决 连续控制问题（如无人机轨迹规划） 和 最优决策问题 。

例子 🚀 以 MPC 控制无人机为例，详细解析 QP 求解过程

模型预测控制（Model Predictive Control, MPC） 是一种基于最优控制理论的方法，它在每个时间步求解一个**二次规划（QP, Quadratic Programming）**问题，以获得最优控制输入。

在本例中，我们详细解析 MPC 控制无人机的 QP 求解过程，从建模到求解的每个步骤。

📌 1. 建立无人机的动态模型

假设无人机是一个简单的线性离散系统，状态变量 $x_t$ 和控制输入 $u_t$ 满足：

$x_{t+1} = A x_t + B u_t$

其中：

状态 (x_t)：无人机的二维位置和速度（简化版）
$x_t = [p_x, p_y, v_x, v_y]^T$
- $p_x, p_y$ ：位置
- $v_x, v_y$ ：速度
控制输入 (u_t)：加速度输入
$u_t = [a_x, a_y]^T$
- ( a_x, a_y )：无人机在 x 和 y 方向的加速度
系统动力学矩阵（离散化）：
$\begin{bmatrix} 1 & 0 & dt & 0 \\ 0 & 1 & 0 & dt \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{bmatrix}, \quad B = \begin{bmatrix} 0 & 0 \\ 0 & 0 \\ dt & 0 \\ 0 & dt \end{bmatrix}$
其中 ( dt ) 是时间步长（离散化时间间隔）。

📌 2. 设定 MPC 的优化目标

MPC 通过优化 未来 ( N ) 步内的轨迹，生成最优控制输入 ( u_t )。

优化目标：
$\sum_{t=0}^{N-1} \left( (x_t - x_{\text{ref}})^T Q (x_t - x_{\text{ref}}) + u_t^T R u_t \right)$

( x_{\text{ref}} )：期望的轨迹（目标点）
( Q )：状态误差的权重（鼓励轨迹跟踪）
( R )：控制输入的权重（防止过大加速度）

约束条件：
$x_{t+1} = A x_t + B u_t$
$u_{\min} \leq u_t \leq u_{\max}$
$x_{\min} \leq x_t \leq x_{\max}$

其中：

( u_{\min}, u_{\max} ) 限制无人机最大加速度
( x_{\min}, x_{\max} ) 限制无人机运动范围

📌 3. 将 MPC 问题转换为标准 QP 问题

MPC 需要预测未来 ( N ) 步的状态，并优化控制输入。为此，我们展开状态方程 预测整个时间窗内的状态演化。

（1）构造状态预测矩阵

对 整个预测时间窗 (N)，我们将状态方程展开为矩阵形式：

$\mathcal{A} x_0 + \mathcal{B} U$

其中：

状态向量（合并整个时间窗）：
$\begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_N \end{bmatrix}, \quad U = \begin{bmatrix} u_0 \\ u_1 \\ \vdots \\ u_{N-1} \end{bmatrix}$
状态转移矩阵：
$\mathcal{A} = \begin{bmatrix} A \\ A^2 \\ \vdots \\ A^N \end{bmatrix}$
控制影响矩阵：
$\mathcal{B} = \begin{bmatrix} B & 0 & 0 & \dots & 0 \\ A B & B & 0 & \dots & 0 \\ A^2 B & A B & B & \dots & 0 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ A^{N-1} B & A^{N-2} B & A^{N-3} B & \dots & B \end{bmatrix}$

最终预测模型：
$\mathcal{A} x_0 + \mathcal{B} U$

（2）将目标函数转化为 QP 形式

$X_{\text{ref}})^T Q (X - X_{\text{ref}}) + U^T R U$
代入状态预测矩阵 ( X = \mathcal{A} x_0 + \mathcal{B} U )：

$(\mathcal{A} x_0 + \mathcal{B} U - X_{\text{ref}})^T Q (\mathcal{A} x_0 + \mathcal{B} U - X_{\text{ref}}) + U^T R U$

展开并整理得：
$U^T (\mathcal{B}^T Q \mathcal{B} + R) U + 2 U^T \mathcal{B}^T Q (\mathcal{A} x_0 - X_{\text{ref}}) + (\mathcal{A} x_0 - X_{\text{ref}})^T Q (\mathcal{A} x_0 - X_{\text{ref}})$
最终标准 QP 形式：