807补充(一)(矩阵微分篇)

在这里插入图片描述

注:在本文中不考虑复数矩阵的可能性,仅考虑实矩阵

符号约定

X , A , B \mathbf{X},\mathbf{A},\mathbf{B} X,A,B矩阵 F ( ⋅ ) \mathbf{F(\cdot)} F()输出为矩阵的函数
x , y , z \mathbf{x},\mathbf{y},\mathbf{z} x,y,z向量 f ( ⋅ ) , g ( ⋅ ) \mathbf{f(\cdot)},\mathbf{g(\cdot)} f(),g()输出为向量的函数
x , y x,y x,y标量 f ( ⋅ ) f ( \cdot) f()输出为标量的函数

:如无特殊说明,本文中的向量都是列向量。
x = [ x 1 , x 2 , ⋯   , x n ] T \mathbf{x} = [x_1 ,x_2 , \cdots , x_n]^T x=[x1,x2,,xn]T

一.矩阵的迹

a = t r ( a ) t r ( A ) = t r ( A T ) t r ( A B ) = t r ( B A ) t r ( A − B ) = t r ( A ) − t r ( B ) t r ( A + B ) = t r ( A ) + t r ( B ) \begin{aligned} &a=\mathrm{tr}(a)\\ &\mathrm{tr}(\mathbf{A})=\mathrm{tr}(\mathbf{A^T})\\ &\mathrm{tr}(\mathbf{AB})=\mathrm{tr}(\mathbf{BA})\\ &\mathrm{tr}(\mathbf{A-B})=\mathrm{tr}(\mathbf{A})-\mathrm{tr}(\mathbf{B})\\ &\mathrm{tr}(\mathbf{A+B})=\mathrm{tr}(\mathbf{A})+\mathrm{tr}(\mathbf{B}) \end{aligned} a=tr(a)tr(A)=tr(AT)tr(AB)=tr(BA)tr(AB)=tr(A)tr(B)tr(A+B)=tr(A)+tr(B)

二.范数

和标量不同,我们不能简单地按照元素大小来比较不同的向量和矩阵. 向量范数和矩阵范数给出了一种长度计量方式.

1.1 向量范数与内积

定义 1.1 (范数) 称一个从向量空间 R n \Bbb{R^n} Rn 到实数域 R \Bbb R R 的非负函数 ∥ · ∥ 为 范数,如果它满足:

  1. 正定性:对于所有的 v ∈ R n , 有 ∣ ∣ v ∣ ∣ ≥ 0 , 且 ∣ ∣ v ∣ ∣ = 0 当 且 仅 当 v = 0 \mathbf v \in \Bbb R^n,有 ||\mathbf v|| \geq 0,且||\mathbf v|| = 0 当且仅当 \mathbf v = 0 vRnv0v=0v=0;
  2. 齐次性:对于所有的 v ∈ R n 和 α ∈ R , 有 ∣ ∣ α v ∣ ∣ = ∣ α ∣ ∗ ∣ ∣ v ∣ ∣ \mathbf v \in \Bbb R^n 和 \alpha \in \Bbb R,有||\alpha\mathbf v|| = |\alpha|*||\mathbf v|| vRnαRαv=αv
  3. 三角不等式:对于所有的 v , w ∈ R n , 有 ∣ ∣ v + w ∣ ∣ ≤ ∣ ∣ v ∣ ∣ + ∣ ∣ w ∣ ∣ \mathbf v,\mathbf w \in \Bbb R^ n,有 ||\mathbf v + \mathbf w|| \leq ||\mathbf v|| + ||\mathbf w|| vwRnv+wv+w;

最常用的向量范数为 L p L_p Lp 范数 ( p ≥ 1 p \geq 1 p1)
∣ ∣ v ∣ ∣ p = ( ∣ v 1 ∣ p + ∣ v 2 ∣ p + ⋅ ⋅ ⋅ + ∣ v n ∣ p ) 1 p ||\mathbf v||_p = (|v_1| ^p + |v_2|^ p + ··· + |v_n|^ p )^{\frac{1}{p}} vp=(v1p+v2p++vnp)p1
p = ∞ p = ∞ p= 时, L ∞ L_\infty L 范数定义为
∣ ∣ v ∣ ∣ ∞ = m a x i ∣ v i ∣ ||\mathbf v||_\infty = max_i|v_i| v=maxivi
p = 0 p=0 p=0时, L 0 L_0 L0范数的定义为向量中非零元素的个数注意0范数并不是一个范数, L 0 L_0 L0范数并不满足这三条性质中的齐次性,它只是一种虚拟的范数。

其中 p = 1 , 2 , ∞ p = 1, 2,\infty p=1,2, 的情形最重要,分别记为 ∣ ∣ ⋅ ∣ ∣ 1 || · ||_1 1, ∣ ∣ ⋅ ∣ ∣ 2 || · ||_2 2 ∣ ∣ ⋅ ∣ ∣ ∞ || · ||_\infty .在不引起歧义的情况下,我们有时省略 L 2 L_2 L2范数的角标,记为 ∣ ∣ ⋅ ∣ ∣ || · || .在最优化问题算法构造和分析中,也常常遇到由正定矩阵 A \mathbf A A 诱导的范数,即 ∣ ∣ x ∣ ∣ A = d e f x T A x ||\mathbf x||_\mathbf A \overset{def}{=} \sqrt {\mathbf x^T\mathbf A\mathbf x} xA=defxTAx . 根据正定矩阵的定义,很容易验证 ∣ ∣ ⋅ ∣ ∣ A || · ||_\mathbf A A 定义了一个范数.

n 阶 向 量 x 与 y n阶向量\mathbf x与\mathbf y nxy之间的内积定义为
⟨ x , y ⟩ = d e f x T y \langle\mathbf x,\mathbf y\rangle\overset{def}{=}\mathbf x^T\mathbf y x,y=defxTy
称为典范内积。另外还可采用加权内积
⟨ x , y ⟩ = d e f x T A y \langle\mathbf x,\mathbf y\rangle\overset{def}{=}\mathbf x^T\mathbf A\mathbf y x,y=defxTAy
其中加权矩阵 A \mathbf A A是正定矩阵,即满足 x T A x > 0 , ∀ x ≠ 0 \mathbf x^T\mathbf A\mathbf x >0,\forall \mathbf x \neq 0 xTAx>0x=0

1.2矩阵向量化

矩阵 A ∈ R m × n \mathbf A\in \Bbb R^{m\times n} ARm×n的向量化 v e c ( A ) \mathrm{vec(\mathbf A)} vec(A)是一线性变化,他将矩阵 A = [ a i , j ] \mathbf A=[a_{i,j}] A=[ai,j]的元素按列堆栈,排列成一个 m n × 1 mn\times 1 mn×1的向量
v e c ( A ) = [ a 11 , ⋯   , a m , 1 , ⋯   , a 1 , n , ⋯   , a m , n ] T \mathrm{vec(\mathbf A)}=[a_{11},\cdots,a_{m,1},\cdots,a_{1,n},\cdots,a_{m,n}]^T vec(A)=[a11,,am,1,,a1,n,,am,n]T
矩阵也可按列堆栈,排列成一个 1 × m n 1 \times mn 1×mn的向量
r v e c ( A ) = [ a 11 , ⋯   , a m , 1 , ⋯   , a 1 , n , ⋯   , a m , n ] \mathrm{rvec(\mathbf A)}=[a_{11},\cdots,a_{m,1},\cdots,a_{1,n},\cdots,a_{m,n}] rvec(A)=[a11,,am,1,,a1,n,,am,n]
显然,矩阵的向量化和行向量化之间存在如下关系
r v e c ( A ) = ( v e c ( A T ) ) T \mathbf{rvec(\mathbf A)}=(\mathrm{vec(\mathbf A^T)})^T rvec(A)=(vec(AT))T
显然对于一个 m × n m\times n m×n矩阵,向量 v e c ( A T ) \mathrm{vec(\mathbf A^T)} vec(AT) v e c ( A ) \mathrm{vec(\mathbf A)} vec(A)含有相同的元素,但是排列次序不同,因此存在一个唯一的 m n × m n mn\times mn mn×mn置换矩阵,可以将一个矩阵的向量化变换为其转置矩阵的向量化。这一置换矩阵称为交换矩阵,记作 K m n \mathbf K_{mn} Kmn定义为
K m n v e c ( A ) = v e c ( A T ) \mathbf K_{mn}\mathrm{vec(\mathrm A)}=\mathrm{vec(\mathrm A^T)} Kmnvec(A)=vec(AT)
类似地,可以将转置矩阵的向量化 v e c ( A T ) \mathrm{vec(\mathrm A^T)} vec(AT)变换为原矩阵的向量化 v e c ( A ) \mathrm{vec(\mathrm A)} vec(A)的交换矩阵是一个 n m × n m nm\times nm nm×nm置换矩阵,记作 K n m \mathbf K_{nm} Knm,定义为
K n m v e c ( A T ) = v e c ( A ) \mathbf K_{nm}\mathrm{vec(\mathrm A^T)}=\mathrm{vec(\mathrm A)} Knmvec(AT)=vec(A)

m n × m n mn\times mn mn×mn交换矩阵 K m n \mathbf K_{mn} Kmn具有以下常用性质
( 1 ) K m n v e c ( A ) = v e c ( A T ) 和 K n m v e c ( A T ) = v e c ( A ) ( 2 ) K m n − 1 = K n m ( 3 ) K m n T = K n m ( 4 ) K 1 n = K n 1 = I n \begin{aligned} (1)&\mathbf K_{mn}\mathrm{vec(\mathrm A)}=\mathrm{vec(\mathrm A^T)}和\mathbf K_{nm}\mathrm{vec(\mathrm A^T)}=\mathrm{vec(\mathrm A)}\\ (2)&\mathbf K_{mn}^{-1}=\mathbf K_{nm}\\ (3)&\mathbf K_{mn}^T=\mathbf K_{nm}\\ (4)&\mathbf K_{1n}=\mathbf K_{n1}=\mathbf I_{n} \end{aligned} (1)(2)(3)(4)Kmnvec(A)=vec(AT)Knmvec(AT)=vec(A)Kmn1=KnmKmnT=KnmK1n=Kn1=In

1.3矩阵范数与内积

将向量的内积与范数定义推广即可得出矩阵范数与内积。令矩阵 A = [ a 1 , ⋯   , a n ] , B = [ b 1 , ⋯   , b n ] ∈ R m × n A=[\mathbf a_1,\cdots,\mathbf a_n],B=[\mathbf b_1,\cdots,\mathbf b_n]\in \Bbb R^{m\times n} A=[a1,,an]B=[b1,,bn]Rm×n将这两个矩阵分别拉长为 m n × 1 mn\times 1 mn×1的向量。
a = v e c ( A ) = [ a 11 a 12 ⋯ a m n ] b = v e c ( B ) = [ b 11 b 12 ⋯ b m n ] \mathbf a = \mathrm{vec}(\mathbf A)=\begin{bmatrix}a_{11} \\ a_{12} \\ \cdots \\ a_{mn}\end{bmatrix}\\ \mathbf b = \mathrm{vec}(\mathbf B)=\begin{bmatrix}b_{11} \\ b_{12} \\ \cdots \\ b_{mn}\end{bmatrix} a=vec(A)=a11a12amnb=vec(B)=b11b12bmn
矩阵的内积记作 ⟨ A , B ⟩ \lang\mathbf A,\mathbf B\rang A,B,定义为两拉长向量的内积
⟨ A , B ⟩ = ⟨ v e c ( A ) , v e c ( B ) ⟩ = t r ( A T B ) = v e c ( A ) T v e c ( B ) \langle\mathbf A,\mathbf B\rangle=\langle\mathrm{vec}(\mathbf A),\mathrm{vec}(\mathbf B)\rangle=\mathrm{tr}(\mathbf A^T \mathbf B)=\mathrm{vec}(\mathbf A)^T\mathrm{vec}(\mathbf B) A,B=vec(A),vec(B)=tr(ATB)=vec(A)Tvec(B)

定义 1.2 (范数) 称一个从矩阵空间 R m × n \Bbb{R^{m\times n}} Rm×n 到实数域 R \Bbb R R 的非负函数 ∥ · ∥ 为 范数,如果它满足:

  1. 正定性:对于所有的 A ∈ R n , 有 ∣ ∣ A ∣ ∣ ≥ 0 , 且 ∣ ∣ A ∣ ∣ = 0 当 且 仅 当 A = 0 \mathbf A \in \Bbb R^n,有 ||\mathbf A|| \geq 0,且||\mathbf A|| = 0 当且仅当 \mathbf A = 0 ARnA0A=0A=0;
  2. 齐次性:对于所有的 A ∈ R n 和 α ∈ R , 有 ∣ ∣ α A ∣ ∣ = ∣ α ∣ ∗ ∣ ∣ A ∣ ∣ \mathbf A \in \Bbb R^n 和 \alpha \in \Bbb R,有||\alpha\mathbf A|| = |\alpha|*||\mathbf A|| ARnαRαA=αA
  3. 三角不等式:对于所有的 A , B ∈ R m × n , 有 ∣ ∣ A + B ∣ ∣ ≤ ∣ ∣ A ∣ ∣ + ∣ ∣ B ∣ ∣ \mathbf A,\mathbf B \in \Bbb R^ {m\times n},有 ||\mathbf A + \mathbf B|| \leq ||\mathbf A|| + ||\mathbf B|| ABRm×nA+BA+B;
  4. 两个矩阵乘积的范数小于等于两个矩阵范数的乘积: ∣ ∣ A B ∣ ∣ ≤ ∣ ∣ A ∣ ∣ ∗ ∣ ∣ B ∣ ∣ ||\mathbf A\mathbf B||\leq ||\mathbf A||*||\mathbf B|| ABAB

利用矩阵向量化算子 v e c \mathrm{vec} vec,向量的 L P L_P LP 范数可以比较容易地推广到矩阵 的 L P L_P LP范数,常用 p = 1, 2 的情形

当 p = 1 时,矩阵 A ∈ R m × n 的 L 1 \mathbf A \in R^{m\times n }的L_1 ARm×nL1 范 数定义为
∣ ∣ A ∣ ∣ 1 = ∑ i , j ∣ a i , j ∣ ||\mathbf A||_1 = \sum_{i,j}|a_{i,j}| A1=i,jai,j
∣ ∣ A ∣ ∣ 1 ||\mathbf A||_1 A1 A \mathbf A A中所有元素绝对值的和

当 p = 2 时,此时得到的是矩阵的 F r o b e n i u s Frobenius Frobenius范数(下称 F 范数),记为 ∣ ∣ A ∣ ∣ F ||A||_F AF.它可以看成是向量的 L 2 L_2 L2 范数的 推广,即所有元素平方和开根号:
∣ ∣ A ∣ ∣ F = T r ( A T A ) = ∑ i , j a i , j 2 ||\mathbf A||_F = \sqrt{Tr(\mathbf A^T\mathbf A)}=\sqrt{\sum_{i,j}a_{i,j}^2} AF=Tr(ATA) =i,jai,j2
除了从向量范数直接推广以外,矩阵范数还可以由向量范数诱导出来, 一般称这种范数为算子范数.定义为
∣ ∣ A ∣ ∣ P = d e f m a x ∣ ∣ A x ∣ ∣ P ∣ ∣ x ∣ ∣ P ||\mathbf A||_P\overset{def}{=}max\frac{||\mathbf A\mathbf x||_P}{||\mathbf x||_P} AP=defmaxxPAxP
利用拉格朗日乘子即可解出

这两种定义得出的结果是相同的。

三.梯度

定义 2.2 (梯度) 给定函数 f : R n → R f : \mathbf R^n → \mathbf R f:RnR,且 f f f 在点 x \mathbf x x 的一个邻域内有意 义,若存在向量 g ∈ R n g \in \mathbf R^n gRn 满足
l i m p → 0 f ( x + p ) − f ( x ) − g T p ∣ ∣ p ∣ ∣ = 0 \mathrm{lim}_{p\rightarrow0} \frac{f(\mathbf x + \mathbf p) − f(\mathbf x) − \mathbf g^T \mathbf p} {||\mathbf p||} = 0 limp0pf(x+p)f(x)gTp=0
其中 ∣ ∣ ⋅ ∣ ∣ || · || 是任意的向量范数,就称 f f f 在点 x \mathbf x x 处可微(或 Frechet 可微).此 时 g g g 称为 f f f 在点 x \mathbf x x 处的梯度,记作 ∇ f ( x ) \nabla f(\mathbf x) f(x).如果对区域 D 上的每一个点 x \mathbf x x 都有 ∇ f ( x ) \nabla f(\mathbf x) f(x) 存在,则称 f f f 在 D 上可微.

f f f 在点 x \mathbf x x 处的梯度存在,令 p = ϵ e i \mathbf p = \epsilon \mathbf e_i p=ϵei e i \mathbf e_i ei 是第 i i i 个分量 为 1 的单位向量,可知 ∇ f ( x ) \nabla f(\mathbf x) f(x) 的第 i i i 个分量为 ∂ f ( x ) ∂ x i \frac{\partial f(\mathbf x)}{\partial x_i} xif(x) .因此
∇ f ( x ) = [ ∂ f ( x ) ∂ x 1 , ∂ f ( x ) ∂ x 2 , ⋯   , ∂ f ( x ) ∂ x i ] T \nabla f(\mathbf x)=[\frac{\partial f(\mathbf x)}{\partial x_1},\frac{\partial f(\mathbf x)}{\partial x_2},\cdots,\frac{\partial f(\mathbf x)}{\partial x_i}]^T f(x)=[x1f(x),x2f(x),,xif(x)]T
在实际应用中,矩阵 Frechet 可微的定义和使用往往比较繁琐,为此我 们需要介绍另一种定义——Gateaux 可微.

(Gateaux 可微)给定函数 f : R n → R f :\mathbf R^n \rightarrow \mathbf R f:RnR,且 f f f 在点 x \mathbf x x 的一个邻域内有意 义,若存在向量 g ∈ R n , t ∈ R g \in \mathbf R^n,t \in \Bbb R gRn,tR 满足
l i m t → 0 = f ( x + t v ) − f ( x ) − t ⟨ v , g ⟩ t = 0 \mathrm{lim}_{t\rightarrow0}=\frac{f(\mathbf x+t\mathbf v)-f(\mathbf x)-t\langle\mathbf v,\mathbf g\rangle}{t}=0 limt0=tf(x+tv)f(x)tv,g=0
则称 f f f 关于 x \mathbf x x 是 Gateaux 可微的.满足上式的 g \mathbf g g 称为 f f f x \mathbf x x 处在 Gateaux 可微意义下的梯度。

把向量变元 x \mathbf x x推广至矩阵变元 X \mathbf X X上述式子依旧成立

从二者定义容易看出,若 f 是 Frechet 可微的, 则 f 也是 Gateaux 可微的,且二者意义下的梯度相等.但这一命题反过来不一定成立。一般认为我们研究的函数是一个"好函数",在此条件下二者的梯度相等。

例:

  1. f ( X ) = T r ( A X T B ) f(\mathbf X) = Tr(\mathbf A\mathbf X^T\mathbf B) f(X)=Tr(AXTB)
    l i m t → 0 t r ( A ( X + t V ) T B ) − t r ( A X T B ) t = t r ( A V T B ) = ⟨ B A , V ⟩ \begin{aligned} &\mathrm{lim_{t\rightarrow 0}}\frac{\mathrm{tr}(\mathbf A(\mathbf X + t\mathbf V) ^T\mathbf B) − \mathrm{tr}(\mathbf A\mathbf X^T\mathbf B)}{t}\\ &=\mathrm{tr}(\mathbf A\mathbf V^T\mathbf B)\\ &=\langle BA,V\rangle \end{aligned} limt0ttr(A(X+tV)TB)tr(AXTB)=tr(AVTB)=BA,V
    ​ 因此, ∇ f ( X ) = B A \nabla f(\mathbf X) = \mathbf B\mathbf A f(X)=BA

  2. f ( x ) = w T x f(\mathbf x)=\mathbf w^T\mathbf x f(x)=wTx
    l i m t → 0 w T ( x + t v ) − w T x t = w T v = ⟨ w , v ⟩ \begin{aligned} &\mathrm{lim_{t\rightarrow 0}}\frac{\mathbf w^T(\mathbf x + t\mathbf v) − \mathbf w^T\mathbf x}{t}\\ &=\mathbf w^T \mathbf v \\ &=\langle \mathbf w,\mathbf v\rangle \end{aligned} limt0twT(x+tv)wTx=wTv=w,v
    因此, ∇ f ( x ) = w \nabla f(\mathbf x) = \mathbf w f(x)=w

  3. f ( X ) = ln ⁡ ( det ⁡ ( X ) ) f(\mathbf X) = \ln(\det(\mathbf X)) f(X)=ln(det(X)),其中 X \mathbf X X是正定矩阵

f ( X + t V ) − f ( X ) = ln ⁡ ( det ⁡ ( X + t V ) ) − ln ⁡ ( det ⁡ ( X ) ) = ln ⁡ ( det ⁡ ( X 1 / 2 ( I + t X − 1 / 2 V X − 1 / 2 ) X 1 / 2 ) ) − ln ⁡ ( det ⁡ ( X ) ) = ln ⁡ ( det ⁡ ( I + t X − 1 / 2 V X − 1 / 2 ) )         为 使 X + t V 为 正 定 矩 阵 , 则 V 必 为 对 称 矩 阵 , 则 X − 1 / 2 V X − 1 / 2 是 对 称 矩 阵 , 所 以 它 可 以 正 交 对 角 化 , 不 妨 设 它 的 特 征 值 为 λ 1 , λ 2 , ⋯   , λ n . , 则 = ln ⁡ ∏ i = 1 n ( 1 + t λ i ) = ∑ i = 1 n ln ⁡ ( 1 + t λ i ) = ∑ i = 1 n t λ i + O ( t 2 ) = t ∗ t r ( X − 1 / 2 V X − 1 / 2 ) + O ( t 2 ) = t ⟨ ( X − 1 ) T , V ⟩ + O ( t 2 ) \begin{aligned} f(\mathbf X + t\mathbf V) − f(\mathbf X)&=\ln(\det(\mathbf X + t\mathbf V)) − \ln(\det(\mathbf X))\\ &=\ln(\det(\mathbf X^{1/2}(\mathbf I + t\mathbf X^{−1/2}\mathbf V\mathbf X^{−1/2})\mathbf X^{1/2})) − \ln(\det(X))\\ &=\ln(\det(\mathbf I + t\mathbf X^{−1/2}\mathbf V\mathbf X^{−1/2}))\ \ \ \ \ \ \ \\&为使\mathbf X + t\mathbf V为正定矩阵,则\mathbf V必为对称矩阵,则 \mathbf X^{−1/2}\mathbf V\mathbf X^{−1/2} 是对称矩阵,所以它可以正交对角化,不妨设它的特征值为 \lambda _1,\lambda _2,\cdots ,\lambda _n.,则\\ &=\ln \prod_{i=1}^n(1 + t\lambda _i)\\ &=\sum_{i=1}^n\ln (1+t\lambda _i)\\ &=\sum_{i=1}^{n}t\lambda _i+O(t^2)\\ &=t*\mathrm{tr}(\mathbf X^{−1/2}\mathbf V\mathbf X^{−1/2}) + O(t^2)\\ &=t\langle(\mathbf X^{−1})^T,V\rangle+ O(t^2) \end{aligned} f(X+tV)f(X)=ln(det(X+tV))ln(det(X))=ln(det(X1/2(I+tX1/2VX1/2)X1/2))ln(det(X))=ln(det(I+tX1/2VX1/2))       使X+tVVX1/2VX1/2λ1,λ2,,λn=lni=1n(1+tλi)=i=1nln(1+tλi)=i=1ntλi+O(t2)=ttr(X1/2VX1/2)+O(t2)=t(X1)T,V+O(t2)

​ 因此, ∇ f ( X ) = ( X − 1 ) T \nabla f(\mathbf X) = \mathbf (X^{−1})^T f(X)=(X1)T

f : R n → R f:\Bbb R^n\rightarrow\Bbb R f:RnR是连续可微的, p ∈ R n \mathbf p \in \Bbb R^n pRn 为向量,那么
f ( x + p ) = f ( x ) + ∇ f ( x + t p ) T p , f(\mathbf x + \mathbf p) = f(\mathbf x) + \nabla f(\mathbf x + t\mathbf p)^T\mathbf p, f(x+p)=f(x)+f(x+tp)Tp,
进一步地,如果 f f f 是二阶连续可微的,则
f ( x + p ) = f ( x ) + ∇ f ( x ) T p + 1 2 p T ∇ 2 f ( x + t p ) p , f(\mathbf x + \mathbf p) = f(\mathbf x) + \nabla f(\mathbf x) ^T\mathbf p +\frac{1}{2}\mathbf p^T\nabla ^2 f(\mathbf x + t\mathbf p)\mathbf p, f(x+p)=f(x)+f(x)Tp+21pT2f(x+tp)p,
其中 0 < t < 1 0 < t < 1 0<t<1

四.海瑟矩阵

如果函数 f ( x ) : R n → R f(x) : \Bbb R^n → \Bbb R f(x):RnR 在点 x \mathbf x x 处的二阶偏导数 ∂ 2 f ( x ) ∂ x i ∂ x j i , j = 1 , 2 , ⋅ ⋅ ⋅ , n \frac { \partial^2 f(\mathbf x)} {\partial x_i \partial x_j} i, j = 1, 2,··· ,n xixj2f(x)i,j=1,2,,n都存在,则
∇ 2 f ( x ) = [ ∂ 2 f ( x ) ∂ x 1 2 ∂ 2 f ( x ) ∂ x 1 ∂ x 2 ⋯ ∂ 2 f ( x ) ∂ x 1 ∂ x n ∂ 2 f ( x ) ∂ x 2 ∂ x 1 ∂ 2 f ( x ) ∂ x 2 ∂ x 2 ⋯ ∂ 2 f ( x ) ∂ x 2 ∂ x n ⋮ ⋮ ⋱ ⋮ ∂ 2 f ( x ) ∂ x n ∂ x 1 ∂ 2 f ( x ) ∂ x n ∂ x 2 ⋯ ∂ 2 f ( x ) ∂ 2 x n ] \nabla^2f(\mathbf x)= \begin{bmatrix} \frac{\partial^2 f(\mathbf x)} {\partial x_1^2} &\frac{\partial^2 f(\mathbf x)} {\partial x_1\partial x_2}&\cdots &\frac{\partial^2 f(\mathbf x)} {\partial x_1\partial x_n}\\ \frac{\partial^2 f(\mathbf x)} {\partial x_2\partial x_1}& \frac{\partial^2 f(\mathbf x)} {\partial x_2\partial x_2}& \cdots& \frac{\partial^2 f(\mathbf x)} {\partial x_2\partial x_n}\\ \vdots &\vdots &\ddots&\vdots\\ \frac{\partial^2 f(\mathbf x)} {\partial x_n\partial x_1}& \frac{\partial^2 f(\mathbf x)} {\partial x_n\partial x_2}& \cdots& \frac{\partial^2 f(\mathbf x)} {\partial^2 x_n} \end{bmatrix} 2f(x)=x122f(x)x2x12f(x)xnx12f(x)x1x22f(x)x2x22f(x)xnx22f(x)x1xn2f(x)x2xn2f(x)2xn2f(x)
称为 f f f 在点 x \mathbf x x 处的海瑟矩阵,可以看出海瑟矩阵是一个对称矩阵

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值