梯度下降原理推导

最新推荐文章于 2023-06-10 15:37:11 发布

winycg

最新推荐文章于 2023-06-10 15:37:11 发布

阅读量924

点赞数 1

分类专栏：深度学习与TensorFlow

本文链接：https://blog.csdn.net/winycg/article/details/80168860

版权

深度学习与TensorFlow 专栏收录该内容

24 篇文章 1 订阅

订阅专栏

方向导数

设 $l$ 是xoy平面上以 $(x_{0},y_{0})$ 为始点的一条射线， $e_{l}=(cos \alpha, cos \beta)$ 是与 $l$ 同方向的单位向量，射线 $l$ 的参数方程为

x = x 0 + t c o s α

$x=x_{0}+tcos\alpha$

y = y 0 + t c o s β

$y=y_{0}+tcos\beta$

t ⩾ 0

$t\geqslant 0$
设函数

z=f(x,y) z = f ( x , y ) $z=f(x,y)$ 在点

P0(x0,y0) P 0 ( x 0 , y 0 ) $P_{0}(x_{0},y_{0})$ 的某个领域

U(P0) U ( P 0 ) $U(P_{0})$ 内有定义，

P(x0+tcosα,y0+tcosβ) P ( x 0 + t c o s α , y 0 + t c o s β ) $P(x_{0}+tcos\alpha,y_{0}+tcos\beta)$ 为

l l $l$ 上的另一点，且

P \in U (P_{0})

$P\in U(P_{0})$ 。如果函数增量与点

P P $P$ 到点

P_{0}

$P_{0}$ 的距离比值

f ( x 0 + t c o s α , y 0 + t c o s β ) - f ( x 0 , y 0 ) t

$\frac{f(x_{0}+tcos\alpha,y_{0}+tcos\beta)-f(x_{0},y_{0})}{t}$ 当

P P $P$ 沿着

l

$l$ 趋向于

P0(即t→0+) P 0 ( 即 t → 0 + ) $P_{0}(即t\rightarrow0^{+})$ 时的极限存在，则称此极限为函数

f(x,y) f ( x , y ) $f(x,y)$ 在点

P0 P 0 $P_{0}$ 沿方向

l l $l$ 的方向倒数，即

\frac{\partial f}{\partial l} ∣_{(x_{0}, y_{0})} = lim_{t \to 0^{+}} \frac{f (x_{0} + t c o s α, y_{0} + t c o s β) - f (x_{0}, y_{0})}{t}

$\frac{\partial f}{\partial l} \mid_{(x_{0},y_{0})}=\lim_{t \rightarrow 0^{+}}\frac{f(x_{0}+tcos\alpha,y_{0}+tcos\beta)-f(x_{0},y_{0})}{t}$
证明：

f(x,y) f ( x , y ) $f(x,y)$ 在点

P0(x0,y0) P 0 ( x 0 , y 0 ) $P_{0}(x_{0},y_{0})$ 可微分，那么函数在该点沿任意方向导数

l l $l$ 都存在，且有

\frac{\partial f}{\partial l} ∣_{(x_{0}, y_{0})} = f_{x} (x_{0}, y_{0}) c o s α + f_{y} (x_{0}, y_{0}) c o s β

$\frac{\partial f}{\partial l} \mid_{(x_{0},y_{0})}=f_{x}{(x_{0},y_{0})cos\alpha + f_{y}(x_{0},y_{0})cos\beta}$
证：由假设，函数

f(x,y) f ( x , y ) $f(x,y)$ 在点

(x0,y0) ( x 0 , y 0 ) $(x_{0},y_{0})$ 可微分，故有

f (x 0 + Δ x ， y 0 + Δ y) - f (x 0, y 0) = f x (x 0, y 0) Δ x + f y (x 0, y 0) Δ y + o ((Δ x) 2 + (Δ y) 2 - - - - - - - - - - - - \sqrt)

$f(x_{0}+\Delta x，y_{0}+\Delta y)-f(x_{0},y_{0})=f_{x}(x_{0},y_{0})\Delta x+f_{y}(x_{0},y_{0})\Delta y+o(\sqrt{(\Delta x)^{2}+(\Delta y)^{2}})$
在方向

l l $l$ 上，有

Δ x = t c o s α, Δ y = t c o s β, \sqrt{(Δ x)^{2} + (Δ y)^{2}} = t

$\Delta x=tcos\alpha,\Delta y=tcos\beta, \sqrt{(\Delta x)^{2}+(\Delta y)^{2}}=t$

\partial f \partial l ∣ (x 0, y 0) = lim t \to 0 + f ( x 0 + t c o s α , y 0 + t c o s β ) - f ( x 0 , y 0 ) t = f x (x 0, y 0) c o s α + f y (x 0, y 0) c o s β

$\frac{\partial f}{\partial l} \mid_{(x_{0},y_{0})}=\lim_{t \rightarrow 0^{+}}\frac{f(x_{0}+tcos\alpha,y_{0}+tcos\beta)-f(x_{0},y_{0})}{t}=f_{x}{(x_{0},y_{0})cos\alpha + f_{y}(x_{0},y_{0})cos\beta}$

梯度

二元函数的情形下，设函数 $f(x,y)$ 在平面区域D中具有一阶连续偏导数，则对于每一点 $P_{0}(x_{0},y_{0})\in D$ ，都可定出一个向量

f x (x 0, y 0) i + f y (x 0, y 0) j

$f_{x}(x_{0},y_{0})i+f_{y}(x_{0},y_{0})j$ 这向量称为函数

f(x,y) f ( x , y ) $f(x,y)$ 在点

P0(x0,y0) P 0 ( x 0 , y 0 ) $P_{0}(x_{0},y_{0})$ 的梯度，记为

∇f(x0,y0) ∇ f ( x 0 , y 0 ) $\nabla f(x_{0},y_{0})$
由

\partial f \partial l ∣ (x 0, y 0) = f x (x 0, y 0) c o s α + f y (x 0, y 0) c o s β = \nabla f (x 0, y 0) \cdot e l = | \nabla f (x 0, y 0) | c o s θ

$\frac{\partial f}{\partial l} \mid_{(x_{0},y_{0})}=f_{x}{(x_{0},y_{0})cos\alpha + f_{y}(x_{0},y_{0})cos\beta}=\nabla f(x_{0},y_{0}) \cdot e_{l}=\left |\nabla f(x_{0},y_{0}) \right |cos\theta$

θ = (\nabla f (x 0, y 0),^e l)

$\theta=(\nabla f(x_{0},y_{0})\hat{,} e_{l})$
因此得出结论：
当

θ=0 θ = 0 $\theta=0$ 时，即单位向量

el e l $e_{l}$ 的方向与梯度方向相同，函数

f(x,y) f ( x , y ) $f(x,y)$ 增加最快，函数在这个方向的方向导数达到最大值

∂f∂l∣(x0,y0)=|∇f(x0,y0)| ∂ f ∂ l ∣ ( x 0 , y 0 ) = | ∇ f ( x 0 , y 0 ) | $\frac{\partial f}{\partial l} \mid_{(x_{0},y_{0})}=\left |\nabla f(x_{0},y_{0}) \right |$ ；当

θ=π θ = π $\theta=\pi$ 时，即单位向量

el e l $e_{l}$ 的方向与梯度方向相反，函数

f(x,y) f ( x , y ) $f(x,y)$ 减小最快，函数在这个方向的方向导数达到最小值

∂f∂l∣(x0,y0)=−|∇f(x0,y0)| ∂ f ∂ l ∣ ( x 0 , y 0 ) = − | ∇ f ( x 0 , y 0 ) | $\frac{\partial f}{\partial l} \mid_{(x_{0},y_{0})}=-\left |\nabla f(x_{0},y_{0}) \right |$

梯度下降优化

对参数 $x和y$ 进行优化，从而使得 $f(x,y)$ 得到最小值

对于每一次优化， $(x,y)$ 都会向当前减小最快的方向移动。首先计算 $(x_{0},y_{0})$ 点的梯度 $\nabla f(x_{0},y_{0})$

\nabla f (x 0, y 0) = f x (x 0, y 0) i + f y (x 0, y 0) j

$\nabla f(x_{0},y_{0})=f_{x}(x_{0},y_{0})i+f_{y}(x_{0},y_{0})j$ 点

(x0,y0) ( x 0 , y 0 ) $(x_{0},y_{0})$ 沿梯度方向移动

η|∇f(x0,y0)| η | ∇ f ( x 0 , y 0 ) | $\eta \left |\nabla f(x_{0},y_{0}) \right |$ 的距离，其中

η η $\eta$ 是学习率，用于控制参数移动的多少。对应于：

x : x - η f x (x 0, y 0)

$x:x-\eta f_{x}(x_{0},y_{0})$

y : y - η f y (x 0, y 0)

$y:y-\eta f_{y}(x_{0},y_{0})$
通过每一次的优化，参数

x和y x 和 y $x和y$ 就会逐渐移动到

f(x,y) f ( x , y ) $f(x,y)$ 最低点

winycg

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
梯度下降原理推导

方向导数设lll是xoy平面上以(x0,y0)(x0,y0)(x_{0},y_{0})为始点的一条射线，el=(cosα,cosβ)el=(cosα,cosβ)e_{l}=(cos \alpha, cos \beta)是与lll同方向的单位向量，射线lll的参数方程为x=x0+tcosαx=x0+tcosαx=x_{0}+tcos\alphay=y0+tcosβy=y0+tcosβy=y_{0...
复制链接

扫一扫