注:在本文中不考虑复数矩阵的可能性,仅考虑实矩阵
符号约定
X , A , B \mathbf{X},\mathbf{A},\mathbf{B} X,A,B | 矩阵 | F ( ⋅ ) \mathbf{F(\cdot)} F(⋅) | 输出为矩阵的函数 |
---|---|---|---|
x , y , z \mathbf{x},\mathbf{y},\mathbf{z} x,y,z | 向量 | f ( ⋅ ) , g ( ⋅ ) \mathbf{f(\cdot)},\mathbf{g(\cdot)} f(⋅),g(⋅) | 输出为向量的函数 |
x , y x,y x,y | 标量 | f ( ⋅ ) f ( \cdot) f(⋅) | 输出为标量的函数 |
注:如无特殊说明,本文中的向量都是列向量。
x
=
[
x
1
,
x
2
,
⋯
,
x
n
]
T
\mathbf{x} = [x_1 ,x_2 , \cdots , x_n]^T
x=[x1,x2,⋯,xn]T
一.矩阵的迹
a = t r ( a ) t r ( A ) = t r ( A T ) t r ( A B ) = t r ( B A ) t r ( A − B ) = t r ( A ) − t r ( B ) t r ( A + B ) = t r ( A ) + t r ( B ) \begin{aligned} &a=\mathrm{tr}(a)\\ &\mathrm{tr}(\mathbf{A})=\mathrm{tr}(\mathbf{A^T})\\ &\mathrm{tr}(\mathbf{AB})=\mathrm{tr}(\mathbf{BA})\\ &\mathrm{tr}(\mathbf{A-B})=\mathrm{tr}(\mathbf{A})-\mathrm{tr}(\mathbf{B})\\ &\mathrm{tr}(\mathbf{A+B})=\mathrm{tr}(\mathbf{A})+\mathrm{tr}(\mathbf{B}) \end{aligned} a=tr(a)tr(A)=tr(AT)tr(AB)=tr(BA)tr(A−B)=tr(A)−tr(B)tr(A+B)=tr(A)+tr(B)
二.范数
和标量不同,我们不能简单地按照元素大小来比较不同的向量和矩阵. 向量范数和矩阵范数给出了一种长度计量方式.
1.1 向量范数与内积
定义 1.1 (范数) 称一个从向量空间 R n \Bbb{R^n} Rn 到实数域 R \Bbb R R 的非负函数 ∥ · ∥ 为 范数,如果它满足:
- 正定性:对于所有的 v ∈ R n , 有 ∣ ∣ v ∣ ∣ ≥ 0 , 且 ∣ ∣ v ∣ ∣ = 0 当 且 仅 当 v = 0 \mathbf v \in \Bbb R^n,有 ||\mathbf v|| \geq 0,且||\mathbf v|| = 0 当且仅当 \mathbf v = 0 v∈Rn,有∣∣v∣∣≥0,且∣∣v∣∣=0当且仅当v=0;
- 齐次性:对于所有的 v ∈ R n 和 α ∈ R , 有 ∣ ∣ α v ∣ ∣ = ∣ α ∣ ∗ ∣ ∣ v ∣ ∣ \mathbf v \in \Bbb R^n 和 \alpha \in \Bbb R,有||\alpha\mathbf v|| = |\alpha|*||\mathbf v|| v∈Rn和α∈R,有∣∣αv∣∣=∣α∣∗∣∣v∣∣;
- 三角不等式:对于所有的 v , w ∈ R n , 有 ∣ ∣ v + w ∣ ∣ ≤ ∣ ∣ v ∣ ∣ + ∣ ∣ w ∣ ∣ \mathbf v,\mathbf w \in \Bbb R^ n,有 ||\mathbf v + \mathbf w|| \leq ||\mathbf v|| + ||\mathbf w|| v,w∈Rn,有∣∣v+w∣∣≤∣∣v∣∣+∣∣w∣∣;
最常用的向量范数为
L
p
L_p
Lp 范数 (
p
≥
1
p \geq 1
p≥1)
∣
∣
v
∣
∣
p
=
(
∣
v
1
∣
p
+
∣
v
2
∣
p
+
⋅
⋅
⋅
+
∣
v
n
∣
p
)
1
p
||\mathbf v||_p = (|v_1| ^p + |v_2|^ p + ··· + |v_n|^ p )^{\frac{1}{p}}
∣∣v∣∣p=(∣v1∣p+∣v2∣p+⋅⋅⋅+∣vn∣p)p1
当
p
=
∞
p = ∞
p=∞ 时,
L
∞
L_\infty
L∞ 范数定义为
∣
∣
v
∣
∣
∞
=
m
a
x
i
∣
v
i
∣
||\mathbf v||_\infty = max_i|v_i|
∣∣v∣∣∞=maxi∣vi∣
当
p
=
0
p=0
p=0时,
L
0
L_0
L0范数的定义为向量中非零元素的个数,注意0范数并不是一个范数,
L
0
L_0
L0范数并不满足这三条性质中的齐次性,它只是一种虚拟的范数。
其中 p = 1 , 2 , ∞ p = 1, 2,\infty p=1,2,∞ 的情形最重要,分别记为 ∣ ∣ ⋅ ∣ ∣ 1 || · ||_1 ∣∣⋅∣∣1, ∣ ∣ ⋅ ∣ ∣ 2 || · ||_2 ∣∣⋅∣∣2 和 ∣ ∣ ⋅ ∣ ∣ ∞ || · ||_\infty ∣∣⋅∣∣∞.在不引起歧义的情况下,我们有时省略 L 2 L_2 L2范数的角标,记为 ∣ ∣ ⋅ ∣ ∣ || · || ∣∣⋅∣∣.在最优化问题算法构造和分析中,也常常遇到由正定矩阵 A \mathbf A A 诱导的范数,即 ∣ ∣ x ∣ ∣ A = d e f x T A x ||\mathbf x||_\mathbf A \overset{def}{=} \sqrt {\mathbf x^T\mathbf A\mathbf x} ∣∣x∣∣A=defxTAx. 根据正定矩阵的定义,很容易验证 ∣ ∣ ⋅ ∣ ∣ A || · ||_\mathbf A ∣∣⋅∣∣A 定义了一个范数.
n
阶
向
量
x
与
y
n阶向量\mathbf x与\mathbf y
n阶向量x与y之间的内积定义为
⟨
x
,
y
⟩
=
d
e
f
x
T
y
\langle\mathbf x,\mathbf y\rangle\overset{def}{=}\mathbf x^T\mathbf y
⟨x,y⟩=defxTy
称为典范内积。另外还可采用加权内积
⟨
x
,
y
⟩
=
d
e
f
x
T
A
y
\langle\mathbf x,\mathbf y\rangle\overset{def}{=}\mathbf x^T\mathbf A\mathbf y
⟨x,y⟩=defxTAy
其中加权矩阵
A
\mathbf A
A是正定矩阵,即满足
x
T
A
x
>
0
,
∀
x
≠
0
\mathbf x^T\mathbf A\mathbf x >0,\forall \mathbf x \neq 0
xTAx>0,∀x=0
1.2矩阵向量化
矩阵
A
∈
R
m
×
n
\mathbf A\in \Bbb R^{m\times n}
A∈Rm×n的向量化
v
e
c
(
A
)
\mathrm{vec(\mathbf A)}
vec(A)是一线性变化,他将矩阵
A
=
[
a
i
,
j
]
\mathbf A=[a_{i,j}]
A=[ai,j]的元素按列堆栈,排列成一个
m
n
×
1
mn\times 1
mn×1的向量
v
e
c
(
A
)
=
[
a
11
,
⋯
,
a
m
,
1
,
⋯
,
a
1
,
n
,
⋯
,
a
m
,
n
]
T
\mathrm{vec(\mathbf A)}=[a_{11},\cdots,a_{m,1},\cdots,a_{1,n},\cdots,a_{m,n}]^T
vec(A)=[a11,⋯,am,1,⋯,a1,n,⋯,am,n]T
矩阵也可按列堆栈,排列成一个
1
×
m
n
1 \times mn
1×mn的向量
r
v
e
c
(
A
)
=
[
a
11
,
⋯
,
a
m
,
1
,
⋯
,
a
1
,
n
,
⋯
,
a
m
,
n
]
\mathrm{rvec(\mathbf A)}=[a_{11},\cdots,a_{m,1},\cdots,a_{1,n},\cdots,a_{m,n}]
rvec(A)=[a11,⋯,am,1,⋯,a1,n,⋯,am,n]
显然,矩阵的向量化和行向量化之间存在如下关系
r
v
e
c
(
A
)
=
(
v
e
c
(
A
T
)
)
T
\mathbf{rvec(\mathbf A)}=(\mathrm{vec(\mathbf A^T)})^T
rvec(A)=(vec(AT))T
显然对于一个
m
×
n
m\times n
m×n矩阵,向量
v
e
c
(
A
T
)
\mathrm{vec(\mathbf A^T)}
vec(AT)与
v
e
c
(
A
)
\mathrm{vec(\mathbf A)}
vec(A)含有相同的元素,但是排列次序不同,因此存在一个唯一的
m
n
×
m
n
mn\times mn
mn×mn置换矩阵,可以将一个矩阵的向量化变换为其转置矩阵的向量化。这一置换矩阵称为交换矩阵,记作
K
m
n
\mathbf K_{mn}
Kmn定义为
K
m
n
v
e
c
(
A
)
=
v
e
c
(
A
T
)
\mathbf K_{mn}\mathrm{vec(\mathrm A)}=\mathrm{vec(\mathrm A^T)}
Kmnvec(A)=vec(AT)
类似地,可以将转置矩阵的向量化
v
e
c
(
A
T
)
\mathrm{vec(\mathrm A^T)}
vec(AT)变换为原矩阵的向量化
v
e
c
(
A
)
\mathrm{vec(\mathrm A)}
vec(A)的交换矩阵是一个
n
m
×
n
m
nm\times nm
nm×nm置换矩阵,记作
K
n
m
\mathbf K_{nm}
Knm,定义为
K
n
m
v
e
c
(
A
T
)
=
v
e
c
(
A
)
\mathbf K_{nm}\mathrm{vec(\mathrm A^T)}=\mathrm{vec(\mathrm A)}
Knmvec(AT)=vec(A)
m
n
×
m
n
mn\times mn
mn×mn交换矩阵
K
m
n
\mathbf K_{mn}
Kmn具有以下常用性质
(
1
)
K
m
n
v
e
c
(
A
)
=
v
e
c
(
A
T
)
和
K
n
m
v
e
c
(
A
T
)
=
v
e
c
(
A
)
(
2
)
K
m
n
−
1
=
K
n
m
(
3
)
K
m
n
T
=
K
n
m
(
4
)
K
1
n
=
K
n
1
=
I
n
\begin{aligned} (1)&\mathbf K_{mn}\mathrm{vec(\mathrm A)}=\mathrm{vec(\mathrm A^T)}和\mathbf K_{nm}\mathrm{vec(\mathrm A^T)}=\mathrm{vec(\mathrm A)}\\ (2)&\mathbf K_{mn}^{-1}=\mathbf K_{nm}\\ (3)&\mathbf K_{mn}^T=\mathbf K_{nm}\\ (4)&\mathbf K_{1n}=\mathbf K_{n1}=\mathbf I_{n} \end{aligned}
(1)(2)(3)(4)Kmnvec(A)=vec(AT)和Knmvec(AT)=vec(A)Kmn−1=KnmKmnT=KnmK1n=Kn1=In
1.3矩阵范数与内积
将向量的内积与范数定义推广即可得出矩阵范数与内积。令矩阵
A
=
[
a
1
,
⋯
,
a
n
]
,
B
=
[
b
1
,
⋯
,
b
n
]
∈
R
m
×
n
A=[\mathbf a_1,\cdots,\mathbf a_n],B=[\mathbf b_1,\cdots,\mathbf b_n]\in \Bbb R^{m\times n}
A=[a1,⋯,an],B=[b1,⋯,bn]∈Rm×n将这两个矩阵分别拉长为
m
n
×
1
mn\times 1
mn×1的向量。
a
=
v
e
c
(
A
)
=
[
a
11
a
12
⋯
a
m
n
]
b
=
v
e
c
(
B
)
=
[
b
11
b
12
⋯
b
m
n
]
\mathbf a = \mathrm{vec}(\mathbf A)=\begin{bmatrix}a_{11} \\ a_{12} \\ \cdots \\ a_{mn}\end{bmatrix}\\ \mathbf b = \mathrm{vec}(\mathbf B)=\begin{bmatrix}b_{11} \\ b_{12} \\ \cdots \\ b_{mn}\end{bmatrix}
a=vec(A)=⎣⎢⎢⎡a11a12⋯amn⎦⎥⎥⎤b=vec(B)=⎣⎢⎢⎡b11b12⋯bmn⎦⎥⎥⎤
矩阵的内积记作
⟨
A
,
B
⟩
\lang\mathbf A,\mathbf B\rang
⟨A,B⟩,定义为两拉长向量的内积
⟨
A
,
B
⟩
=
⟨
v
e
c
(
A
)
,
v
e
c
(
B
)
⟩
=
t
r
(
A
T
B
)
=
v
e
c
(
A
)
T
v
e
c
(
B
)
\langle\mathbf A,\mathbf B\rangle=\langle\mathrm{vec}(\mathbf A),\mathrm{vec}(\mathbf B)\rangle=\mathrm{tr}(\mathbf A^T \mathbf B)=\mathrm{vec}(\mathbf A)^T\mathrm{vec}(\mathbf B)
⟨A,B⟩=⟨vec(A),vec(B)⟩=tr(ATB)=vec(A)Tvec(B)
定义 1.2 (范数) 称一个从矩阵空间 R m × n \Bbb{R^{m\times n}} Rm×n 到实数域 R \Bbb R R 的非负函数 ∥ · ∥ 为 范数,如果它满足:
- 正定性:对于所有的 A ∈ R n , 有 ∣ ∣ A ∣ ∣ ≥ 0 , 且 ∣ ∣ A ∣ ∣ = 0 当 且 仅 当 A = 0 \mathbf A \in \Bbb R^n,有 ||\mathbf A|| \geq 0,且||\mathbf A|| = 0 当且仅当 \mathbf A = 0 A∈Rn,有∣∣A∣∣≥0,且∣∣A∣∣=0当且仅当A=0;
- 齐次性:对于所有的 A ∈ R n 和 α ∈ R , 有 ∣ ∣ α A ∣ ∣ = ∣ α ∣ ∗ ∣ ∣ A ∣ ∣ \mathbf A \in \Bbb R^n 和 \alpha \in \Bbb R,有||\alpha\mathbf A|| = |\alpha|*||\mathbf A|| A∈Rn和α∈R,有∣∣αA∣∣=∣α∣∗∣∣A∣∣;
- 三角不等式:对于所有的 A , B ∈ R m × n , 有 ∣ ∣ A + B ∣ ∣ ≤ ∣ ∣ A ∣ ∣ + ∣ ∣ B ∣ ∣ \mathbf A,\mathbf B \in \Bbb R^ {m\times n},有 ||\mathbf A + \mathbf B|| \leq ||\mathbf A|| + ||\mathbf B|| A,B∈Rm×n,有∣∣A+B∣∣≤∣∣A∣∣+∣∣B∣∣;
- 两个矩阵乘积的范数小于等于两个矩阵范数的乘积: ∣ ∣ A B ∣ ∣ ≤ ∣ ∣ A ∣ ∣ ∗ ∣ ∣ B ∣ ∣ ||\mathbf A\mathbf B||\leq ||\mathbf A||*||\mathbf B|| ∣∣AB∣∣≤∣∣A∣∣∗∣∣B∣∣
利用矩阵向量化算子 v e c \mathrm{vec} vec,向量的 L P L_P LP 范数可以比较容易地推广到矩阵 的 L P L_P LP范数,常用 p = 1, 2 的情形
当 p = 1 时,矩阵
A
∈
R
m
×
n
的
L
1
\mathbf A \in R^{m\times n }的L_1
A∈Rm×n的L1 范 数定义为
∣
∣
A
∣
∣
1
=
∑
i
,
j
∣
a
i
,
j
∣
||\mathbf A||_1 = \sum_{i,j}|a_{i,j}|
∣∣A∣∣1=i,j∑∣ai,j∣
即
∣
∣
A
∣
∣
1
||\mathbf A||_1
∣∣A∣∣1 为
A
\mathbf A
A中所有元素绝对值的和
当 p = 2 时,此时得到的是矩阵的
F
r
o
b
e
n
i
u
s
Frobenius
Frobenius范数(下称 F 范数),记为
∣
∣
A
∣
∣
F
||A||_F
∣∣A∣∣F.它可以看成是向量的
L
2
L_2
L2 范数的 推广,即所有元素平方和开根号:
∣
∣
A
∣
∣
F
=
T
r
(
A
T
A
)
=
∑
i
,
j
a
i
,
j
2
||\mathbf A||_F = \sqrt{Tr(\mathbf A^T\mathbf A)}=\sqrt{\sum_{i,j}a_{i,j}^2}
∣∣A∣∣F=Tr(ATA)=i,j∑ai,j2
除了从向量范数直接推广以外,矩阵范数还可以由向量范数诱导出来, 一般称这种范数为算子范数.定义为
∣
∣
A
∣
∣
P
=
d
e
f
m
a
x
∣
∣
A
x
∣
∣
P
∣
∣
x
∣
∣
P
||\mathbf A||_P\overset{def}{=}max\frac{||\mathbf A\mathbf x||_P}{||\mathbf x||_P}
∣∣A∣∣P=defmax∣∣x∣∣P∣∣Ax∣∣P
利用拉格朗日乘子即可解出
这两种定义得出的结果是相同的。
三.梯度
定义 2.2 (梯度) 给定函数
f
:
R
n
→
R
f : \mathbf R^n → \mathbf R
f:Rn→R,且
f
f
f 在点
x
\mathbf x
x 的一个邻域内有意 义,若存在向量
g
∈
R
n
g \in \mathbf R^n
g∈Rn 满足
l
i
m
p
→
0
f
(
x
+
p
)
−
f
(
x
)
−
g
T
p
∣
∣
p
∣
∣
=
0
\mathrm{lim}_{p\rightarrow0} \frac{f(\mathbf x + \mathbf p) − f(\mathbf x) − \mathbf g^T \mathbf p} {||\mathbf p||} = 0
limp→0∣∣p∣∣f(x+p)−f(x)−gTp=0
其中
∣
∣
⋅
∣
∣
|| · ||
∣∣⋅∣∣ 是任意的向量范数,就称
f
f
f 在点
x
\mathbf x
x 处可微(或 Frechet 可微).此 时
g
g
g 称为
f
f
f 在点
x
\mathbf x
x 处的梯度,记作
∇
f
(
x
)
\nabla f(\mathbf x)
∇f(x).如果对区域 D 上的每一个点
x
\mathbf x
x 都有
∇
f
(
x
)
\nabla f(\mathbf x)
∇f(x) 存在,则称
f
f
f 在 D 上可微.
若
f
f
f 在点
x
\mathbf x
x 处的梯度存在,令
p
=
ϵ
e
i
\mathbf p = \epsilon \mathbf e_i
p=ϵei,
e
i
\mathbf e_i
ei 是第
i
i
i 个分量 为 1 的单位向量,可知
∇
f
(
x
)
\nabla f(\mathbf x)
∇f(x) 的第
i
i
i 个分量为
∂
f
(
x
)
∂
x
i
\frac{\partial f(\mathbf x)}{\partial x_i}
∂xi∂f(x) .因此
∇
f
(
x
)
=
[
∂
f
(
x
)
∂
x
1
,
∂
f
(
x
)
∂
x
2
,
⋯
,
∂
f
(
x
)
∂
x
i
]
T
\nabla f(\mathbf x)=[\frac{\partial f(\mathbf x)}{\partial x_1},\frac{\partial f(\mathbf x)}{\partial x_2},\cdots,\frac{\partial f(\mathbf x)}{\partial x_i}]^T
∇f(x)=[∂x1∂f(x),∂x2∂f(x),⋯,∂xi∂f(x)]T
在实际应用中,矩阵 Frechet 可微的定义和使用往往比较繁琐,为此我 们需要介绍另一种定义——Gateaux 可微.
(Gateaux 可微)给定函数
f
:
R
n
→
R
f :\mathbf R^n \rightarrow \mathbf R
f:Rn→R,且
f
f
f 在点
x
\mathbf x
x 的一个邻域内有意 义,若存在向量
g
∈
R
n
,
t
∈
R
g \in \mathbf R^n,t \in \Bbb R
g∈Rn,t∈R 满足
l
i
m
t
→
0
=
f
(
x
+
t
v
)
−
f
(
x
)
−
t
⟨
v
,
g
⟩
t
=
0
\mathrm{lim}_{t\rightarrow0}=\frac{f(\mathbf x+t\mathbf v)-f(\mathbf x)-t\langle\mathbf v,\mathbf g\rangle}{t}=0
limt→0=tf(x+tv)−f(x)−t⟨v,g⟩=0
则称
f
f
f 关于
x
\mathbf x
x 是 Gateaux 可微的.满足上式的
g
\mathbf g
g 称为
f
f
f 在
x
\mathbf x
x 处在 Gateaux 可微意义下的梯度。
把向量变元 x \mathbf x x推广至矩阵变元 X \mathbf X X上述式子依旧成立
从二者定义容易看出,若 f 是 Frechet 可微的, 则 f 也是 Gateaux 可微的,且二者意义下的梯度相等.但这一命题反过来不一定成立。一般认为我们研究的函数是一个"好函数",在此条件下二者的梯度相等。
例:
-
f ( X ) = T r ( A X T B ) f(\mathbf X) = Tr(\mathbf A\mathbf X^T\mathbf B) f(X)=Tr(AXTB)
l i m t → 0 t r ( A ( X + t V ) T B ) − t r ( A X T B ) t = t r ( A V T B ) = ⟨ B A , V ⟩ \begin{aligned} &\mathrm{lim_{t\rightarrow 0}}\frac{\mathrm{tr}(\mathbf A(\mathbf X + t\mathbf V) ^T\mathbf B) − \mathrm{tr}(\mathbf A\mathbf X^T\mathbf B)}{t}\\ &=\mathrm{tr}(\mathbf A\mathbf V^T\mathbf B)\\ &=\langle BA,V\rangle \end{aligned} limt→0ttr(A(X+tV)TB)−tr(AXTB)=tr(AVTB)=⟨BA,V⟩
因此, ∇ f ( X ) = B A \nabla f(\mathbf X) = \mathbf B\mathbf A ∇f(X)=BA -
f ( x ) = w T x f(\mathbf x)=\mathbf w^T\mathbf x f(x)=wTx
l i m t → 0 w T ( x + t v ) − w T x t = w T v = ⟨ w , v ⟩ \begin{aligned} &\mathrm{lim_{t\rightarrow 0}}\frac{\mathbf w^T(\mathbf x + t\mathbf v) − \mathbf w^T\mathbf x}{t}\\ &=\mathbf w^T \mathbf v \\ &=\langle \mathbf w,\mathbf v\rangle \end{aligned} limt→0twT(x+tv)−wTx=wTv=⟨w,v⟩
因此, ∇ f ( x ) = w \nabla f(\mathbf x) = \mathbf w ∇f(x)=w -
f ( X ) = ln ( det ( X ) ) f(\mathbf X) = \ln(\det(\mathbf X)) f(X)=ln(det(X)),其中 X \mathbf X X是正定矩阵
f ( X + t V ) − f ( X ) = ln ( det ( X + t V ) ) − ln ( det ( X ) ) = ln ( det ( X 1 / 2 ( I + t X − 1 / 2 V X − 1 / 2 ) X 1 / 2 ) ) − ln ( det ( X ) ) = ln ( det ( I + t X − 1 / 2 V X − 1 / 2 ) ) 为 使 X + t V 为 正 定 矩 阵 , 则 V 必 为 对 称 矩 阵 , 则 X − 1 / 2 V X − 1 / 2 是 对 称 矩 阵 , 所 以 它 可 以 正 交 对 角 化 , 不 妨 设 它 的 特 征 值 为 λ 1 , λ 2 , ⋯ , λ n . , 则 = ln ∏ i = 1 n ( 1 + t λ i ) = ∑ i = 1 n ln ( 1 + t λ i ) = ∑ i = 1 n t λ i + O ( t 2 ) = t ∗ t r ( X − 1 / 2 V X − 1 / 2 ) + O ( t 2 ) = t ⟨ ( X − 1 ) T , V ⟩ + O ( t 2 ) \begin{aligned} f(\mathbf X + t\mathbf V) − f(\mathbf X)&=\ln(\det(\mathbf X + t\mathbf V)) − \ln(\det(\mathbf X))\\ &=\ln(\det(\mathbf X^{1/2}(\mathbf I + t\mathbf X^{−1/2}\mathbf V\mathbf X^{−1/2})\mathbf X^{1/2})) − \ln(\det(X))\\ &=\ln(\det(\mathbf I + t\mathbf X^{−1/2}\mathbf V\mathbf X^{−1/2}))\ \ \ \ \ \ \ \\&为使\mathbf X + t\mathbf V为正定矩阵,则\mathbf V必为对称矩阵,则 \mathbf X^{−1/2}\mathbf V\mathbf X^{−1/2} 是对称矩阵,所以它可以正交对角化,不妨设它的特征值为 \lambda _1,\lambda _2,\cdots ,\lambda _n.,则\\ &=\ln \prod_{i=1}^n(1 + t\lambda _i)\\ &=\sum_{i=1}^n\ln (1+t\lambda _i)\\ &=\sum_{i=1}^{n}t\lambda _i+O(t^2)\\ &=t*\mathrm{tr}(\mathbf X^{−1/2}\mathbf V\mathbf X^{−1/2}) + O(t^2)\\ &=t\langle(\mathbf X^{−1})^T,V\rangle+ O(t^2) \end{aligned} f(X+tV)−f(X)=ln(det(X+tV))−ln(det(X))=ln(det(X1/2(I+tX−1/2VX−1/2)X1/2))−ln(det(X))=ln(det(I+tX−1/2VX−1/2)) 为使X+tV为正定矩阵,则V必为对称矩阵,则X−1/2VX−1/2是对称矩阵,所以它可以正交对角化,不妨设它的特征值为λ1,λ2,⋯,λn.,则=lni=1∏n(1+tλi)=i=1∑nln(1+tλi)=i=1∑ntλi+O(t2)=t∗tr(X−1/2VX−1/2)+O(t2)=t⟨(X−1)T,V⟩+O(t2)
因此, ∇ f ( X ) = ( X − 1 ) T \nabla f(\mathbf X) = \mathbf (X^{−1})^T ∇f(X)=(X−1)T
设
f
:
R
n
→
R
f:\Bbb R^n\rightarrow\Bbb R
f:Rn→R是连续可微的,
p
∈
R
n
\mathbf p \in \Bbb R^n
p∈Rn 为向量,那么
f
(
x
+
p
)
=
f
(
x
)
+
∇
f
(
x
+
t
p
)
T
p
,
f(\mathbf x + \mathbf p) = f(\mathbf x) + \nabla f(\mathbf x + t\mathbf p)^T\mathbf p,
f(x+p)=f(x)+∇f(x+tp)Tp,
进一步地,如果
f
f
f 是二阶连续可微的,则
f
(
x
+
p
)
=
f
(
x
)
+
∇
f
(
x
)
T
p
+
1
2
p
T
∇
2
f
(
x
+
t
p
)
p
,
f(\mathbf x + \mathbf p) = f(\mathbf x) + \nabla f(\mathbf x) ^T\mathbf p +\frac{1}{2}\mathbf p^T\nabla ^2 f(\mathbf x + t\mathbf p)\mathbf p,
f(x+p)=f(x)+∇f(x)Tp+21pT∇2f(x+tp)p,
其中
0
<
t
<
1
0 < t < 1
0<t<1
四.海瑟矩阵
如果函数
f
(
x
)
:
R
n
→
R
f(x) : \Bbb R^n → \Bbb R
f(x):Rn→R 在点
x
\mathbf x
x 处的二阶偏导数
∂
2
f
(
x
)
∂
x
i
∂
x
j
i
,
j
=
1
,
2
,
⋅
⋅
⋅
,
n
\frac { \partial^2 f(\mathbf x)} {\partial x_i \partial x_j} i, j = 1, 2,··· ,n
∂xi∂xj∂2f(x)i,j=1,2,⋅⋅⋅,n都存在,则
∇
2
f
(
x
)
=
[
∂
2
f
(
x
)
∂
x
1
2
∂
2
f
(
x
)
∂
x
1
∂
x
2
⋯
∂
2
f
(
x
)
∂
x
1
∂
x
n
∂
2
f
(
x
)
∂
x
2
∂
x
1
∂
2
f
(
x
)
∂
x
2
∂
x
2
⋯
∂
2
f
(
x
)
∂
x
2
∂
x
n
⋮
⋮
⋱
⋮
∂
2
f
(
x
)
∂
x
n
∂
x
1
∂
2
f
(
x
)
∂
x
n
∂
x
2
⋯
∂
2
f
(
x
)
∂
2
x
n
]
\nabla^2f(\mathbf x)= \begin{bmatrix} \frac{\partial^2 f(\mathbf x)} {\partial x_1^2} &\frac{\partial^2 f(\mathbf x)} {\partial x_1\partial x_2}&\cdots &\frac{\partial^2 f(\mathbf x)} {\partial x_1\partial x_n}\\ \frac{\partial^2 f(\mathbf x)} {\partial x_2\partial x_1}& \frac{\partial^2 f(\mathbf x)} {\partial x_2\partial x_2}& \cdots& \frac{\partial^2 f(\mathbf x)} {\partial x_2\partial x_n}\\ \vdots &\vdots &\ddots&\vdots\\ \frac{\partial^2 f(\mathbf x)} {\partial x_n\partial x_1}& \frac{\partial^2 f(\mathbf x)} {\partial x_n\partial x_2}& \cdots& \frac{\partial^2 f(\mathbf x)} {\partial^2 x_n} \end{bmatrix}
∇2f(x)=⎣⎢⎢⎢⎢⎢⎡∂x12∂2f(x)∂x2∂x1∂2f(x)⋮∂xn∂x1∂2f(x)∂x1∂x2∂2f(x)∂x2∂x2∂2f(x)⋮∂xn∂x2∂2f(x)⋯⋯⋱⋯∂x1∂xn∂2f(x)∂x2∂xn∂2f(x)⋮∂2xn∂2f(x)⎦⎥⎥⎥⎥⎥⎤
称为
f
f
f 在点
x
\mathbf x
x 处的海瑟矩阵,可以看出海瑟矩阵是一个对称矩阵