梯度下降法又称为最速下降法,是求解无约束优化问题最简单和最古老的方法之一。对无约束最优化问题:
minx∈Rnf(x)
梯度下降法是负梯度方向
dk=−∇f(xk)
取负梯度的原因:设 f(x) 在 xk 附近连续可微, dk 为搜索方
向向量, gk=∇f(xk) . 由泰勒展开式得
f(xk+αdk)=f(xk)+αgTkdk+o(α),α>0.
目标函数 f(x) 在 xk 处沿方向 dk 下降的变化率:
limα→0f(xk+αdk)−f(xk)α=limα→0αgTkdk+o(α)α=gTkdk=∥gk∥∥dk∥cos(θ¯k)
其中 θ¯k 是 gk 与 dk 的夹角。显然, 对于不同的方向 dk , 函数变化率取决于它与 gk 夹角的余弦值.要使变化率最小,只 cos(θ¯k)=−1 , 即 θ¯k=π 时才能达到。
梯度下降法:
step1: 选取初始点 x0∈Rn , 容许误差 0<ϵ≪1 . 令 k:=1 .
step2: 计算 gk=∇f(xk) . 若 ∥gk∥≤ϵ , 停算, 输出 xk 作为近似最优解.
step3: 取方向 dk=−gk .
step4: 由线搜索技术确定步长因子 αk .
step5: 令 xx+1=xk+αkdk , k=k+1 , 转step1.
matalb代码如下:
function [x,val,k]=grad(fun,gfun,x0)
% 功能: 用最速下降法求解无约束问题: min f(x)
%输入: x0是初始点, fun, gfun分别是目标函数和梯度
%输出: x, val分别是近似最优点和最优值, k是迭代次数.
maxk=5000; %最大迭代次数
rho=0.5;sigma=0.4;
k=0; epsilon=1e-5;
while(k<maxk)
g=feval(gfun,x0); %计算梯度
d=-g; %计算搜索方向
if(norm(d)<epsilon), break; end
m=0; mk=0;
while(m<20) %Armijo搜索
if(feval(fun,x0+rho^m*d)<feval(fun,x0)+sigma*rho^m*g'*d)
mk=m; break;
end
m=m+1;
end
x0=x0+rho^mk*d;
k=k+1;
end
x=x0;
val=feval(fun,x0);