非线性最小二乘
简单的最小二乘问题:
min x F ( x ) = 1 2 ∥ f ( x ) ∥ 2 2 . \min_xF(x) = \frac{1}{2} \lVert f(x)\rVert_2^2. xminF(x)=21∥f(x)∥22.
其中,自变量 x ∈ A n x \in \mathbb{A}^n x∈An, f f f是任意标量非线性函数 f ( x ) : R n ↦ R f(x):\mathbb{R}^n \mapsto \mathbb{R} f(x):Rn↦R。这里的系数 1 2 \frac{1}{2} 21 无关紧要的,它不会影响之后的结论。如果 f f f是个数学形式上很简单的函数,那么这样一个优化问题可以用解析形式来求。令目标函数的倒数为零,然后求解 x x x的最优值,和求二元函数的极值一样:
d F d x = 0. \frac{dF}{dx} = 0. dxdF=0.
解此方程,就得到了导数为零处的极值。它们可能是极大、极小或鞍点处的值,只要逐个比较它们的函数值大小即可。如果 f f f为简单的线性函数,那么这个问题就是简单的线性最小二乘问题,但是如果 f f f的导函数形式复杂,那么求解这个方程需要我们知道关于目标函数的全局性质。对于不便直接求解的最小二乘问题,我们采用迭代的方式,从一个初始值出发,不断地更新当前的优化变量,使目标函数下降。具体步骤如下:
- 给定某个初始值 x 0 x_0 x0。
- 对于第 k k k次迭代,寻找一个增量 Δ x k \Delta x_k Δxk,使得 ∣ ∣ f ( x k + Δ x k ) ∣ ∣ 2 2 ||f(x_k + \Delta x_k)||^2_2 ∣∣f(xk+Δxk)∣∣22达到极小值。
- 若 Δ x k \Delta x_k Δxk足够小,则停止。
- 否则,令 x k + 1 = x k + Δ x x_{k+1} = x_k + \Delta x xk+1=xk+Δx,返回第二步。
这让求解导函数为零的问题变成了一个不断寻找下降增量 Δ x k \Delta x_k Δxk 的问题。当函数下降到增量非常小的时候,就认为算法收敛,目标函数达到了一个极小值。
一阶和二阶梯度法
现在考虑第 k k k次迭代,假如我们在 x k x_k xk处,想要寻到增量 Δ x k \Delta x_k Δxk,那么最直观的方式是将目标函数在 x k x_k xk附近进行泰勒展开:
F ( x k + Δ x k ) ≈ F ( x k ) + J ( x k ) T Δ x k + 1 2 Δ x k T H ( x k ) Δ x k . F(x_k + \Delta x_k) \approx F(x_k) + \mathnormal{J}(x_k)^T \Delta x_k + \frac{1}{2} \Delta x_k^T \mathnormal{H}(x_k) \Delta x_k. F(xk+Δxk)≈F(xk)+J(xk)TΔxk+21ΔxkTH(x