设l
l
是xoy平面上以(x0,y0)为始点的一条射线,el=(cosα,cosβ)
e
l
=
(
c
o
s
α
,
c
o
s
β
)
是与l
l
同方向的单位向量,射线l的参数方程为
x=x0+tcosα
x
=
x
0
+
t
c
o
s
α
y=y0+tcosβ
y
=
y
0
+
t
c
o
s
β
t⩾0
t
⩾
0
设函数
z=f(x,y)
z
=
f
(
x
,
y
)
在点
P0(x0,y0)
P
0
(
x
0
,
y
0
)
的某个领域
U(P0)
U
(
P
0
)
内有定义,
P(x0+tcosα,y0+tcosβ)
P
(
x
0
+
t
c
o
s
α
,
y
0
+
t
c
o
s
β
)
为
l
l
上的另一点,且P∈U(P0)。如果函数增量与点
P
P
到点P0的距离比值
f(x0+tcosα,y0+tcosβ)−f(x0,y0)t
f
(
x
0
+
t
c
o
s
α
,
y
0
+
t
c
o
s
β
)
−
f
(
x
0
,
y
0
)
t
当
P
P
沿着l趋向于
P0(即t→0+)
P
0
(
即
t
→
0
+
)
时的极限存在,则称此极限为函数
f(x,y)
f
(
x
,
y
)
在点
P0
P
0
沿方向
l
l
的方向倒数,即
证明:
f(x,y)
f
(
x
,
y
)
在点
P0(x0,y0)
P
0
(
x
0
,
y
0
)
可微分,那么函数在该点沿任意方向导数
l
l
都存在,且有
∂f∂l∣(x0,y0)=fx(x0,y0)cosα+fy(x0,y0)cosβ
证:由假设,函数
f(x,y)
f
(
x
,
y
)
在点
(x0,y0)
(
x
0
,
y
0
)
可微分,故有
f(x0+Δx,y0+Δy)−f(x0,y0)=fx(x0,y0)Δx+fy(x0,y0)Δy+o((Δx)2+(Δy)2−−−−−−−−−−−−√)
f
(
x
0
+
Δ
x
,
y
0
+
Δ
y
)
−
f
(
x
0
,
y
0
)
=
f
x
(
x
0
,
y
0
)
Δ
x
+
f
y
(
x
0
,
y
0
)
Δ
y
+
o
(
(
Δ
x
)
2
+
(
Δ
y
)
2
)
在方向
l
l
上,有Δx=tcosα,Δy=tcosβ,(Δx)2+(Δy)2−−−−−−−−−−−−√=t
∂f∂l∣(x0,y0)=limt→0+f(x0+tcosα,y0+tcosβ)−f(x0,y0)t=fx(x0,y0)cosα+fy(x0,y0)cosβ
∂
f
∂
l
∣
(
x
0
,
y
0
)
=
lim
t
→
0
+
f
(
x
0
+
t
c
o
s
α
,
y
0
+
t
c
o
s
β
)
−
f
(
x
0
,
y
0
)
t
=
f
x
(
x
0
,
y
0
)
c
o
s
α
+
f
y
(
x
0
,
y
0
)
c
o
s
β
梯度
二元函数的情形下,设函数f(x,y)
f
(
x
,
y
)
在平面区域D中具有一阶连续偏导数,则对于每一点P0(x0,y0)∈D
P
0
(
x
0
,
y
0
)
∈
D
,都可定出一个向量
fx(x0,y0)i+fy(x0,y0)j
f
x
(
x
0
,
y
0
)
i
+
f
y
(
x
0
,
y
0
)
j
这向量称为函数
f(x,y)
f
(
x
,
y
)
在点
P0(x0,y0)
P
0
(
x
0
,
y
0
)
的梯度,记为
∇f(x0,y0)
∇
f
(
x
0
,
y
0
)
由
∂f∂l∣(x0,y0)=fx(x0,y0)cosα+fy(x0,y0)cosβ=∇f(x0,y0)⋅el=|∇f(x0,y0)|cosθ
∂
f
∂
l
∣
(
x
0
,
y
0
)
=
f
x
(
x
0
,
y
0
)
c
o
s
α
+
f
y
(
x
0
,
y
0
)
c
o
s
β
=
∇
f
(
x
0
,
y
0
)
⋅
e
l
=
|
∇
f
(
x
0
,
y
0
)
|
c
o
s
θ
θ=(∇f(x0,y0),^el)
θ
=
(
∇
f
(
x
0
,
y
0
)
,
^
e
l
)
因此得出结论:
当
θ=0
θ
=
0
时,即单位向量
el
e
l
的方向与梯度方向相同,函数
f(x,y)
f
(
x
,
y
)
增加最快,函数在这个方向的方向导数达到最大值
∂f∂l∣(x0,y0)=|∇f(x0,y0)|
∂
f
∂
l
∣
(
x
0
,
y
0
)
=
|
∇
f
(
x
0
,
y
0
)
|
;当
θ=π
θ
=
π
时,即单位向量
el
e
l
的方向与梯度方向相反,函数
f(x,y)
f
(
x
,
y
)
减小最快,函数在这个方向的方向导数达到最小值
∂f∂l∣(x0,y0)=−|∇f(x0,y0)|
∂
f
∂
l
∣
(
x
0
,
y
0
)
=
−
|
∇
f
(
x
0
,
y
0
)
|
梯度下降优化
对参数x和y
x
和
y
进行优化,从而使得f(x,y)
f
(
x
,
y
)
得到最小值
对于每一次优化,(x,y)
(
x
,
y
)
都会向当前减小最快的方向移动。首先计算(x0,y0)
(
x
0
,
y
0
)
点的梯度∇f(x0,y0)
∇
f
(
x
0
,
y
0
)
∇f(x0,y0)=fx(x0,y0)i+fy(x0,y0)j
∇
f
(
x
0
,
y
0
)
=
f
x
(
x
0
,
y
0
)
i
+
f
y
(
x
0
,
y
0
)
j
点
(x0,y0)
(
x
0
,
y
0
)
沿梯度方向移动
η|∇f(x0,y0)|
η
|
∇
f
(
x
0
,
y
0
)
|
的距离,其中
η
η
是学习率,用于控制参数移动的多少。对应于:
x:x−ηfx(x0,y0)
x
:
x
−
η
f
x
(
x
0
,
y
0
)
y:y−ηfy(x0,y0)
y
:
y
−
η
f
y
(
x
0
,
y
0
)
通过每一次的优化,参数
x和y
x
和
y
就会逐渐移动到
f(x,y)
f
(
x
,
y
)
最低点
方向导数设lll是xoy平面上以(x0,y0)(x0,y0)(x_{0},y_{0})为始点的一条射线,el=(cosα,cosβ)el=(cosα,cosβ)e_{l}=(cos \alpha, cos \beta)是与lll同方向的单位向量,射线lll的参数方程为x=x0+tcosαx=x0+tcosαx=x_{0}+tcos\alphay=y0+tcosβy=y0+tcosβy=y_{0...