线性规划-内点法初探

idkmn_

于 2024-05-29 23:53:27 发布

阅读量926

点赞数 14

分类专栏：优化文章标签：算法数学建模信息与通信信号处理

本文链接：https://blog.csdn.net/xbn20000224/article/details/139295584

版权

优化专栏收录该内容

3 篇文章 0 订阅

订阅专栏

参考：最优化理论与算法（第2版）（陈宝林）

书中首先介绍了将一般线性规划问题转化为Karmarkar标准问题求解，为简化计算，Karmarkar等人又给出了内点法以求解线性规划问题，此部分在书中为*号引申内容，介绍较为简略，此处也是对书中内容做简要的补充。

考虑如下线性规划问题
$\begin{array}{ll} \max & \boldsymbol{c}^{\mathrm{T}} \boldsymbol{x} \\ \text { s. t. } & \boldsymbol{A} \boldsymbol{x} \leqslant \boldsymbol{b} \end{array}$
其中： $\boldsymbol{c}, x \in \mathbb{R}^n$ ， $\boldsymbol{A} \text { 是 } m \times n \text {矩阵, } m \geqslant n \text {. }$
算法的基本思想,是从内点 $\boldsymbol{x}^{(0)}$ 出发,沿可行方向求出使目标函数值上升的后继点,再从得到的内点出发, 沿另一个可行方向求使目标函数值上升的内点。

将问题进行松弛：
$\begin{array}{ll} \max & \boldsymbol{c}^{\mathrm{T}} \boldsymbol{x} \\ \text { s. t. } & \boldsymbol{A x}+\boldsymbol{v}=\boldsymbol{b}, \\ & \boldsymbol{v} \geqslant \mathbf{0} . \end{array}$
对于第k轮迭代，即有
$\boldsymbol{v}^{(k)}=\boldsymbol{b}-\boldsymbol{A} \boldsymbol{x}^{(k)}$

随后进行Affine Scaling，这是因为：当 $\boldsymbol{x}^k$ 是非常接近边界又不是最优解时, 步长将被迫选得非常小, 到最优解的收敛将非常慢。
故：若当前解 $\boldsymbol{x}^k$ 不是很靠近 “中心”, 需要将坐标重新拉伸 (re-scale), (仿射) 变换到靠近 “中心”的位置。
如何定义一个可行域的中心：
若 $\mathbf{x}^k=\mathbf{e}$ , 则
(1) $\mathbf{x}^k$ 距离边界 1 个单位.
(2) 因此只要步长 $\alpha^k<1$ , 则可确保 $\boldsymbol{x}^{k+1}>\mathbf{0}$ .

故可以定义对角矩阵： $\boldsymbol{D}_k=\operatorname{diag}\left(\frac{1}{v_1^{(k)}}, \cdots, \frac{1}{v_m^{(k)}}\right) .$ ，利用其进行Affine Scaling： $\boldsymbol{w}=\boldsymbol{D}_k \boldsymbol{v}$ ，原问题可进一步被写为：
$\begin{array}{ll} \max & \boldsymbol{c}^{\top} \boldsymbol{x} \\ \text { s. t. } & \boldsymbol{A x}+\boldsymbol{D}_k^{-1} \boldsymbol{w}=\boldsymbol{b}, \\ & \boldsymbol{w} \geqslant \mathbf{0} . \end{array}$

在变换后的空间中，定义搜索方向为：
$d=\left[\begin{array}{l} d_x \\ d_w \end{array}\right] \in \mathbb{R}^{m+n}$
代入可得：
$\begin{aligned} & A(x+d_x)+D_k^{-1}\left(w+d_w\right)=b \\ & \underbrace{A x+D_k^{-1} w}_b+A d_x+D_k^{-1} d_w=b \\ & D_k A d_x+d_w=0 \end{aligned}$
随后，为了寻找一个“好方向”，
对于满足 $D_k A d_x+d_w=0$ 的任一解，有 $A^{\mathrm{T}} D_k\left(D_k A d_x+d_w\right)=0$ (零空间投影)
可以得到：
$d_x=-\left(A^{\top} D_k^2 A\right)^{-1} A^{\top} D_k d_w .$
为了使 $c^T(x+d_x)$ 最大，将上式代入 $c^T d_x$ 得到：
$\boldsymbol{c}^{\mathrm{T}} \boldsymbol{d}_x=\boldsymbol{c}^{\mathrm{T}}\left[-\left(\boldsymbol{A}^{\mathrm{T}} \boldsymbol{D}_k^2 \boldsymbol{A}\right)^{-1} \boldsymbol{A}^{\mathrm{T}} \boldsymbol{D}_k \boldsymbol{d}_w\right]=-\left[\boldsymbol{D}_k \boldsymbol{A}\left(\boldsymbol{A}^{\mathrm{T}} \boldsymbol{D}_k^2 \boldsymbol{A}\right)^{-1} \boldsymbol{c}\right]^{\mathrm{T}} \boldsymbol{d}_w .$
为了使上式最大，需进一步确定 $d_w$ 取值，即选择同方向：
$\boldsymbol{d}_{\mathrm{w}}=-\boldsymbol{D}_k \boldsymbol{A}\left(\boldsymbol{A}^{\mathrm{T}} \boldsymbol{D}_k^2 \mathbf{A}\right)^{-1} \boldsymbol{c} .$
又由于： $D_k A d_x+d_w=0$ 可知
$-D_k A d_x = d_w = -D_k \boldsymbol{A}\left(A^{\mathrm{T}} D_k^2 A\right)^{-1} c$
可得到 $d_x = \left(\boldsymbol{A}^{\mathrm{T}} \boldsymbol{D}_k^2 \boldsymbol{A}\right)^{-1} \boldsymbol{c}$
随后，将得到的 $d_w$ 逆仿射：
$d_v=D_k^{-1} d_w=-A\left(A^{\mathrm{T}} D_k^2 A\right)^{-1} c=-A d_x$
故迭代更新表示为：
$\boldsymbol{x}^{(k+1)}=\boldsymbol{x}^{(k)}+\lambda \boldsymbol{d}_{\boldsymbol{x}}$
为保证更新序列始终为内点：
$\begin{aligned} & \boldsymbol{A}\left(\boldsymbol{x}^{(k)}+\lambda \boldsymbol{d}_x\right)<\boldsymbol{b}, \\ & \lambda \boldsymbol{A} \boldsymbol{d}_x<\boldsymbol{b}-\boldsymbol{A } \boldsymbol{x}^{(k)} \\ & -\lambda \boldsymbol{d}_v<\boldsymbol{v}^{(k)} \end{aligned}$
令：
$\alpha=\min \left\{\left.\frac{v_i^{(k)}}{-\left(d_v\right)_i} \right\rvert\,\left(d_v\right)_i<0, i \in\{1, \cdots, m\}\right\},$
取 $\lambda=\gamma\alpha ，\gamma \in(0,1)$
这样即可从 $x^{(k)}$ 出发沿方向 $d_x$ 求得使 $c^T x$ 上升的点