最近学习了矩阵论,对范数相关知识进行了学习,而之前只是在论文和计算方法里提到1-范数、2-范数、 ∞ \infty ∞范数,下面我会从范数的定义,性质,以及范数的用途进行总结。
1 范数的物理意义
我们可以从函数、几何、矩阵的角度去理解,几何是函数形象表达,函数是几何抽象描述,几何研究“形”,函数研究“数”,函数与几何图形往往是有对应的关系。函数图像联系了函数和几何,表达了两个数之间的变化关系,函数是几何图像的数学概括,而几何图像是函数的高度形象化,比如一个函数对应几何空间上若干点组成的图形。
但当函数与几何超出三维空间时,就难以获得较好的想象,于是就有了映射的概念,映射表达的就是一个集合通过某种关系转为另外一个集合。数学书一般会先说映射,然后再讨论函数,这是因为函数是映射的一个特例。映射推广了函数的概念,使得自变量不再仅仅局限于一个数,也不再局限于一维,任何事物都可以拿来作映射,维数可以是任意维,传统的函数图象已无法直观地表达高维对象之间的映射关系,这就要求我们在观念中,把三维的几何空间推广到抽象的 n n n 维空间。
由于映射的对象可以是任何事物,为了便于研究映射的性质以及数学表达,我们首先需要对映射的对象进行“量化”,取定一组“基”,确定事物在这组基下的坐标,事物同构于我们所熟悉的抽象几何空间中的点,事物的映射可以理解为从一个空间中的点到另一个空间的点的映射,而映射本身也是事物,自然也可以抽象为映射空间中的一个点,这就是泛函中需要研究的对象——函数。
从一个线性空间到另一个线性空间的线性映射,可以用一个矩阵来表达,矩阵被看线性作映射,线性映射的性质可以通过研究矩阵的性质来获得。这里的矩阵就是表征上述空间映射的线性关系。于是,我们可以这样理解,一个集合(向量),通过一种映射关系(矩阵),得到另外一个集合(另外一个向量)。
矩阵的秩反映了线性映射值域空间的维数,可逆矩阵反映了线性映射的可逆,而矩阵的范数反映了线性映射把一个向量映射为另一个向量,向量的“长度”缩放的比例。换言之,向量的范数,就是表示这个原有集合的大小;而矩阵的范数,就是表示这个变化过程的大小的一个度量。
范数是把一个事物映射到非负实数,且满足非负性、齐次性、三角不等式,符合以上定义的都可以称之为范数,所以,范数的具体形式有很多种(由内积定义可以导出范数,范数还也可以有其他定义,或其他方式导出)。在数学上,范数包括向量范数和矩阵范数。向量范数表征向量空间中向量的大小,矩阵范数表征矩阵引起变化的大小。简单的的解释就是,对应向量范数,向量空间中的向量都是有大小的,这个大小如何度量,就是用范数来度量的,不同的范数都可以来度量这个大小,可以简单形象地理解为向量的长度,或者向量到零点的距离,或者相应两个点的距离;对于矩阵范数,反映了线性映射把一个向量映射为另一个向量,向量的“长度”缩放的比例。
声明:以上内容是对CSDN博主「jizhihang2000」的文章:范数的物理意义 的简单总结和补充。
2 向量范数
2.1 定义与性质
1. 定义
设
V
V
V 是数域
K
K
K 上的线性空间,对于
V
V
V 的任意向量
x
\pmb{x}
x,对应着一个实值函数
∣
∣
x
∣
∣
\left| \left| \pmb{x} \right| \right|
∣∣x∣∣,它满足以下3个条件:
(1)正定性:当
x
≠
0
\pmb{x} \not= \pmb{0}
x=0 时,
∣
∣
x
∣
∣
>
0
\left| \left| \pmb{x} \right| \right| > 0
∣∣x∣∣>0;当且仅当
x
=
0
\pmb{x} = \pmb{0}
x=0 时,
∣
∣
x
∣
∣
=
0
\left| \left| \pmb{x} \right| \right| = 0
∣∣x∣∣=0;
(2)齐次性:
∣
∣
k
x
∣
∣
=
∣
k
∣
∣
∣
x
∣
∣
,
k
∈
K
\left| \left| k\pmb{x} \right| \right| = \left| k \right| \left| \left| \pmb{x} \right| \right|,k \in K
∣∣kx∣∣=∣k∣∣∣x∣∣,k∈K;
(3)三角不等式:
∣
∣
x
+
y
∣
∣
=
∣
∣
x
∣
∣
+
∣
∣
y
∣
∣
,
x
,
y
∈
V
\left| \left| \pmb{x} + \pmb{y} \right| \right| = \left| \left| \pmb{x} \right| \right| + \left| \left| \pmb{y} \right| \right|,\pmb{x}, \pmb{y} \in V
∣∣x+y∣∣=∣∣x∣∣+∣∣y∣∣,x,y∈V。
则称
∣
∣
x
∣
∣
\left| \left| \pmb{x} \right| \right|
∣∣x∣∣ 为
V
V
V 上向量
x
\pmb{x}
x 的范数(norm)。
2. 性质
向量范数的等价性: 设
∣
∣
x
∣
∣
α
\left| \left| \pmb{x} \right| \right|_{\alpha}
∣∣x∣∣α和
∣
∣
x
∣
∣
β
\left| \left| \pmb{x} \right| \right|_{\beta}
∣∣x∣∣β为有限维线性空间
V
V
V 的任意两种向量范数(它们不限于
p
−
p-
p−范数),则存在两个与向量
x
\pmb{x}
x 无关的正常数
c
1
c_1
c1和
c
2
c_2
c2,使满足:
c
1
∣
∣
x
∣
∣
β
≤
∣
∣
x
∣
∣
α
≤
c
2
∣
∣
x
∣
∣
β
(2-1)
c_1\left| \left| \pmb{x} \right| \right|_{\beta} \leq \left| \left| \pmb{x} \right| \right|_{\alpha} \leq c_2\left| \left| \pmb{x} \right| \right|_{\beta} \tag{2-1}
c1∣∣x∣∣β≤∣∣x∣∣α≤c2∣∣x∣∣β(2-1)
特殊的范数关系式:
∣
∣
x
∣
∣
2
≤
∣
∣
x
∣
∣
1
≤
n
∣
∣
x
∣
∣
2
∣
∣
x
∣
∣
∞
≤
∣
∣
x
∣
∣
2
≤
n
∣
∣
x
∣
∣
∞
∣
∣
x
∣
∣
∞
≤
∣
∣
x
∣
∣
1
≤
n
∣
∣
x
∣
∣
∞
∣
∣
x
∣
∣
∞
≤
∣
∣
x
∣
∣
2
≤
n
∣
∣
x
∣
∣
1
(2-2)
\left| \left| \pmb{x} \right| \right|_{2} \leq \left| \left| \pmb{x} \right| \right|_{1} \leq \sqrt{n} \left| \left| \pmb{x} \right| \right|_{2} \\ \quad \\ \left| \left| \pmb{x} \right| \right|_{\infty} \leq \left| \left| \pmb{x} \right| \right|_{2} \leq \sqrt{n} \left| \left| \pmb{x} \right| \right|_{\infty} \\ \quad \\ \left| \left| \pmb{x} \right| \right|_{\infty} \leq \left| \left| \pmb{x} \right| \right|_{1} \leq {n} \left| \left| \pmb{x} \right| \right|_{\infty} \\ \quad \\ \left| \left| \pmb{x} \right| \right|_{\infty} \leq \left| \left| \pmb{x} \right| \right|_{2} \leq {n} \left| \left| \pmb{x} \right| \right|_{1} \tag{2-2}
∣∣x∣∣2≤∣∣x∣∣1≤n∣∣x∣∣2∣∣x∣∣∞≤∣∣x∣∣2≤n∣∣x∣∣∞∣∣x∣∣∞≤∣∣x∣∣1≤n∣∣x∣∣∞∣∣x∣∣∞≤∣∣x∣∣2≤n∣∣x∣∣1(2-2)
2.2 范数的分类
设 x = ( x 1 , x 2 , ⋯ , x n ) T ∈ R n \pmb{x} = (x_1, x_2, \cdots, x_n)^T \in \mathbb{R}^n x=(x1,x2,⋯,xn)T∈Rn,则有以下常用范数:
2.2.1 从范数的定义出发
1.
l
p
l_p
lp范数
l
p
l_p
lp 范数不是一个范数,而是一组范数,其定义如下:
l
p
=
∥
x
∥
p
=
(
∑
i
=
1
n
∣
x
i
∣
p
)
1
/
p
p
≥
1
(2-3)
l_p=\Vert \pmb{x}\Vert_p = ({\sum\limits_{i=1}\limits^{n}{ \left| x_i \right|}^p})^{1/p} \quad p \geq 1\tag{2-3}
lp=∥x∥p=(i=1∑n∣xi∣p)1/pp≥1(2-3)
随着
p
p
p的变化,范数也有着不同的变化,如下图为
p
p
p从无穷到0变化的时候,三维空间中到原点的距离(范数)为1的点构成的图形的变化情况。
2.
l
0
l_0
l0范数
当
p
=
0
p=0
p=0 时,也就是
l
0
l_0
l0范数,由上面的定义可知,
l
0
l_0
l0范数并不是一个真正的范数,它主要被用来度量向量中非零元素的个数。用上面的
l
p
l_p
lp范数定义可以得到的
l
0
l_0
l0范数的定义为:
∥ x ∥ 0 = 0 ∑ i = 0 n x i 0 (2-4) \| \pmb{x} {\|}_{0} = ^{0}\sqrt{{\sum}_{i=0}^{n}{x_{i}^{0}}} \tag{2-4} ∥x∥0=0∑i=0nxi0(2-4)
上面的公式可能会让我们疑惑,因为非零元素的零次方等于1,但非零数开零次方是什么含义呢,其实是0的指数和平方根严格意义上是受限条件下才成立的。因此在实际应用中,多数人给出下面的替代定义:
∣ ∣ x ∣ ∣ 0 = # ( i ) w i t h x i ≠ 0 (2-5) \left| \left| \pmb{x} \right| \right|_{0}\; \; =\; \#\left( i \right)\; with\; x_{i}\; \neq \; 0 \tag{2-5} ∣∣x∣∣0=#(i)withxi=0(2-5)
其表示向量中所有非零元素的个数。如果我们使用 l 0 l_0 l0范数来规则化参数向量 x \pmb{x} x,就是希望 x \pmb{x} x的元素大部分都为零。 l 0 l_0 l0范数的这个属性,使得其非常适合机器学习中稀疏编码。在特征选择中,通过最小化 l 0 l_0 l0范数,来寻找最少最优的稀疏特征项。但不幸的是, l 0 l_0 l0范数的最小化问题在实际应用中是NP问题。而 l 1 l_1 l1范数是 l 0 l_0 l0范数的最优凸近似,它比 l 0 l_0 l0范数要更容易求解。因此,优化过程将会被转换为更高维的范数(例如 l 1 l_1 l1范数)问题。
3.
l
1
l_1
l1范数
l
1
l_1
l1范数为向量
x
\pmb{x}
x 各个元素绝对值之和,即:
∣
∣
x
∣
∣
1
=
∑
i
=
1
n
∣
x
i
∣
(2-6)
\left| \left| \pmb{x} \right| \right|_{1}\; =\; \sum_{i=1}^{n}{\left| x_{i} \right|} \tag{2-6}
∣∣x∣∣1=i=1∑n∣xi∣(2-6)
由于 l 1 l_1 l1范数的天然性质,对 l 1 l_1 l1优化的解是一个稀疏解,因此 l 1 l_1 l1范数也被叫做稀疏规则算子。通过 l 1 l_1 l1可以实现特征的稀疏,去掉一些没有信息的特征。
4.
l
2
l_2
l2范数
范数中最常见的就是
l
2
l_2
l2范数,
l
2
l_2
l2范数又称Euclidean范数或者Frobenius范数,为向量
x
\pmb{x}
x 各个元素平方和的1/2次方,即:
∣
∣
x
∣
∣
2
=
∑
i
=
1
n
x
i
2
(2-7)
\left| \left| \pmb{x} \right| \right|_{2}\; =\; \sqrt{\sum_{i=1}^{n}{x_{i}^{2}}} \tag{2-7}
∣∣x∣∣2=i=1∑nxi2(2-7)
l 2 l_2 l2范数通常会被用来做优化目标函数的正则化项,防止模型为了迎合训练集而过于复杂造成过拟合的情况,从而提高模型的泛化能力。
5. l ∞ l_{\infty} l∞范数
∥ x ∥ ∞ = ∞ ∑ i = 1 n x i ∞ (2-8) \| \pmb{x} \|_{\infty} = ^{\infty }\sqrt{\sum_{i=1}^{n}{x_{i}^{\infty}}} \tag{2-8} ∥x∥∞=∞i=1∑nxi∞(2-8)
上面的式子看起来比较复杂,下面进行简单的数学变换,假设
x
j
x_j
xj是向量中最大的元素,则根据无限大的特性,我们可以得到:
x
j
∞
>
>
x
i
∞
∧
j
≠
i
(2-9)
x_{j}^{\infty }\; >>\; x_{i}^{\infty }\; \wedge j\neq i \tag{2-9}
xj∞>>xi∞∧j=i(2-9)
则可知
∑
i
=
1
n
x
i
∞
=
x
j
∞
(2-10)
\sum_{i=1}^{n}{x_{i}^{\infty }\; =\; x_{j}^{\infty }} \tag{2-10}
i=1∑nxi∞=xj∞(2-10)
于是可以得到:
∣ ∣ x ∣ ∣ ∞ = ∞ ∑ i = 1 n x i ∞ = ∞ x j ∞ = ∣ x j ∣ (2-11) \left| \left| \pmb{x} \right| \right|_{\infty } = ^{\infty }\sqrt{\sum_{i=1}^{n}{x_{i}^{\infty }}} = ^{\infty }\sqrt{x_{j}^{\infty }} = \left| x_{j} \right| \tag{2-11} ∣∣x∣∣∞=∞i=1∑nxi∞=∞xj∞=∣xj∣(2-11)
因此,我们可以说 l ∞ l_{\infty} l∞范数是向量中最大元素的长度。
∣ ∣ x ∣ ∣ ∞ = max ( ∣ x j ∣ ) (2-12) \left| \left| \pmb{x} \right| \right|_{\infty }\; =\; \max \left( \left| x_{j} \right| \right) \tag{2-12} ∣∣x∣∣∞=max(∣xj∣)(2-12)
6. 椭圆范数
设
A
A
A是任意一个
n
n
n阶实对称正定矩阵,列向量
x
∈
R
n
x \in \mathbb{R}^n
x∈Rn,则函数
∣
∣
x
∣
∣
A
=
(
x
T
A
x
)
1
/
2
(2-13)
\left| \left| \pmb{x} \right| \right|_A = (x^TAx)^{1/2} \tag{2-13}
∣∣x∣∣A=(xTAx)1/2(2-13)
是一种向量函数,称为加权范数或椭圆范数。
2.2.2 从距离的定义出发
给定一个集合
V
V
V,在
V
V
V上定义一种新的运算:距离:
V
×
V
→
R
,
∀
x
,
y
∈
V
V \times V \to \mathbb{R},\forall x, y \in V
V×V→R,∀x,y∈V,在
R
\mathbb{R}
R 中都有唯一的元素
δ
\delta
δ与之对应,称为
x
,
y
x, y
x,y之间的距离,满足的条件如下:
(1)非负性:
d
(
x
,
y
)
=
0
⇔
x
=
y
d(x,y)=0\Leftrightarrow x=y
d(x,y)=0⇔x=y
(2)三角不等式:
d
(
x
,
y
)
⩽
d
(
x
,
y
)
+
d
(
y
,
z
)
d(x,y)\leqslant d(x,y)+d(y,z)
d(x,y)⩽d(x,y)+d(y,z)
(3)自反性:
d
(
x
,
y
)
=
d
(
y
,
x
)
d(x,y)=d(y,x)
d(x,y)=d(y,x)
1. 闵可夫斯基距离(Minkowski Distance)——对应 l p l_p lp范数
闵氏距离不是一种距离,而是一组距离的定义。闵氏距离的定义:两个
n
n
n维向量(或者两个
n
n
n维空间点)
x
1
(
x
11
,
x
12
,
⋯
,
x
1
n
)
\pmb{x_1}(x_{11}, x_{12}, \cdots, x_{1n})
x1(x11,x12,⋯,x1n)与
x
2
(
x
21
,
x
22
,
⋯
,
x
2
n
)
\pmb{x_2}(x_{21}, x_{22}, \cdots, x_{2n})
x2(x21,x22,⋯,x2n) 间的闵可夫斯基距离定义为:
d
(
x
1
,
x
2
)
=
∑
k
=
1
n
∣
x
1
k
−
x
2
k
∣
p
p
(2-14)
d{(\pmb{x_1}, \pmb{x_2})}= \sqrt[p]{\sum_{k=1}^{n} {\lvert x_{1k}-x_{2k} \rvert}^p} \tag{2-14}
d(x1,x2)=pk=1∑n∣x1k−x2k∣p(2-14)
其中
p
p
p 是一个变参数。当
p
=
1
p=1
p=1 时,就是曼哈顿距离;当
p
=
2
p=2
p=2 时,就是欧氏距离;当
p
→
∞
p \to \infty
p→∞ 时,就是切比雪夫距离。根据变参数的不同,闵氏距离可以表示一类的距离。
2. 曼哈顿距离(Manhattan Distance)——对应 l 1 l_1 l1范数
曼哈顿距离是在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。需要注意的是,曼哈顿距离依赖座标系统的转度,而非系统在座标轴上的平移或映射。
曼哈顿距离的定义:两个
n
n
n维向量(或者两个
n
n
n维空间点)
x
1
(
x
11
,
x
12
,
⋯
,
x
1
n
)
\pmb{x_1}(x_{11}, x_{12}, \cdots, x_{1n})
x1(x11,x12,⋯,x1n)与
x
2
(
x
21
,
x
22
,
⋯
,
x
2
n
)
\pmb{x_2}(x_{21}, x_{22}, \cdots, x_{2n})
x2(x21,x22,⋯,x2n) 间的曼哈顿距离定义为:
d
(
x
1
,
x
2
)
=
∑
k
=
1
n
∣
x
1
k
−
x
2
k
∣
(2-15)
d{(\pmb{x_1}, \pmb{x_2})}= \sum_{k=1}^{n} {\lvert x_{1k}-x_{2k}\rvert} \tag{2-15}
d(x1,x2)=k=1∑n∣x1k−x2k∣(2-15)
3. 欧式距离(Euclidean Distance)——对应 l 2 l_2 l2范数
欧氏距离即两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中。
n
n
n维空间中两个点
x
1
(
x
11
,
x
12
,
⋯
,
x
1
n
)
\pmb{x_1}(x_{11}, x_{12}, \cdots, x_{1n})
x1(x11,x12,⋯,x1n)与
x
2
(
x
21
,
x
22
,
⋯
,
x
2
n
)
\pmb{x_2}(x_{21}, x_{22}, \cdots, x_{2n})
x2(x21,x22,⋯,x2n)间的欧氏距离:
d
(
x
1
,
x
2
)
=
∑
k
=
1
n
(
x
1
k
−
x
2
k
)
2
(2-16)
d{(\pmb{x_1}, \pmb{x_2})}= \sqrt{\sum_{k=1}^{n} {(x_{1k}-x_{2k})}^2} \tag{2-16}
d(x1,x2)=k=1∑n(x1k−x2k)2(2-16)
也可以用向量的运算形式表示出来:
d
(
x
1
,
x
2
)
=
(
x
1
−
x
2
)
(
x
1
−
x
2
)
T
(2-17)
d{(\pmb{x_1}, \pmb{x_2})}= \sqrt{(\pmb{x_1}- \pmb{x_2})(\pmb{x_1}- \pmb{x_2})^T} \tag{2-17}
d(x1,x2)=(x1−x2)(x1−x2)T(2-17)
4. 切比雪夫距离————对应
l
∞
l_{\infty}
l∞范数
若两个向量或两个点
x
1
\pmb{x_1}
x1 和
x
2
\pmb{x_2}
x2,其坐标分别为
x
1
(
x
11
,
x
12
,
⋯
,
x
1
n
)
\pmb{x_1}(x_{11}, x_{12}, \cdots, x_{1n})
x1(x11,x12,⋯,x1n)与
x
2
(
x
21
,
x
22
,
⋯
,
x
2
n
)
\pmb{x_2}(x_{21}, x_{22}, \cdots, x_{2n})
x2(x21,x22,⋯,x2n),则二者的切比雪夫距离为:
d
(
x
1
,
x
2
)
=
max
k
∣
x
1
k
−
x
2
k
∣
(2-18)
d{(\pmb{x_1}, \pmb{x_2})} = \max_{k} \lvert x_{1k}-x_{2k}\rvert \tag{2-18}
d(x1,x2)=kmax∣x1k−x2k∣(2-18)
上述表达式有下面的等价形式:
d
(
x
1
,
x
2
)
=
lim
k
→
∞
(
∑
k
=
1
n
∣
x
1
k
−
x
2
k
∣
k
)
1
/
k
(2-19)
d{(\pmb{x_1}, \pmb{x_2})} = \lim_{k \to \infty}(\sum_{k=1}^{n}\lvert x_{1k}-x_{2k}\rvert^k)^{1/k} \tag{2-19}
d(x1,x2)=k→∞lim(k=1∑n∣x1k−x2k∣k)1/k(2-19)
因此切比雪夫距离也称为 l ∞ l_{\infty} l∞度量。
小结: 由上面的对比我们可以看出来,距离的定义是一个宽泛的概念,只要满足非负、自反、三角不等式就可以称之为距离。范数是一种强化了的距离概念,它在定义上比距离多了一条数乘的运算法则。有时候为了便于理解,我们可以把范数当作距离来理解。
3 矩阵范数
矩阵范数主要有三种类型:算子范数(我们经常接触的)、元素形式范数和Schatten
范数。
3.1 定义
1. 定义
对于
m
×
n
m \times n
m×n 复矩阵空间
C
m
×
n
\mathbb{C}^{m \times n}
Cm×n,我们也希望定义一个长度衡量矩阵的大小,定义距离比较两个矩阵之间的接近程度,由此我们引进了矩阵范数。
设
A
∈
C
m
×
n
\pmb{A} \in \mathbb{C}^{m \times n}
A∈Cm×n,定义一个实值函数
∣
∣
A
∣
∣
\left| \left| A \right| \right|
∣∣A∣∣,满足下面的条件:
(1)正定性:
∀
A
∈
C
m
×
n
\forall \pmb{A}\in \mathbb C^{m \times n}
∀A∈Cm×n,当
A
≠
0
\pmb{A} \not= \bf{0}
A=0 时,
∣
∣
A
∣
∣
>
0
\left| \left| \pmb{A} \right| \right| > 0
∣∣A∣∣>0;当且仅当
A
=
0
\pmb{A} = \bf{0}
A=0 时,
∣
∣
A
∣
∣
=
0
\left| \left| \pmb{A} \right| \right| = 0
∣∣A∣∣=0;
(2)齐次性:
∀
A
∈
C
m
×
n
,
∀
α
∈
C
\forall \pmb{A} \in\mathbb C^{m \times n},\forall\alpha\in\mathbb C
∀A∈Cm×n,∀α∈C,有
∥
α
A
∥
=
∣
α
∣
⋅
∥
A
∥
\Vert \alpha \pmb{A} \Vert=\vert\alpha\vert\cdot\Vert \pmb{A} \Vert
∥αA∥=∣α∣⋅∥A∥
(3)三角不等式:
∀
A
,
B
∈
C
m
×
n
\forall \pmb{A},\pmb{B} \in\mathbb C^{m\times n}
∀A,B∈Cm×n
∥
A
+
B
∥
≤
∥
A
∥
+
∥
B
∥
\Vert \pmb{A}+\pmb{B}\Vert\le\Vert \pmb{A}\Vert+\Vert \pmb{B}\Vert
∥A+B∥≤∥A∥+∥B∥
(4)乘法相容性:
∀
A
,
B
∈
C
m
×
n
\forall \pmb{A},\pmb{B} \in\mathbb C^{m\times n}
∀A,B∈Cm×n有
∥
A
B
∥
≤
∥
A
∥
∥
B
∥
\Vert \pmb{AB}\Vert\le\Vert \pmb{A}\Vert\,\Vert \pmb{B}\Vert
∥AB∥≤∥A∥∥B∥
则称
∣
∣
A
∣
∣
\left| \left| \pmb{A} \right| \right|
∣∣A∣∣ 为
A
\pmb{A}
A 的矩阵范数。
2. 相容性
在计算中经常出现矩阵和向量的乘积,希望矩阵范数和向量范数间有某种协调性,于是提出了矩阵范数和向量范数的相容性:
设
∥
⋅
∥
p
\| \cdot \|_{p}
∥⋅∥p 是
C
n
\mathbb{C}^{n}
Cn 上的向量范数,
∥
∗
∥
m
\| \ast \|_{m}
∥∗∥m 是
C
m
×
n
\mathbb{C}^{m \times n}
Cm×n 上的矩阵范数,且
∥
A
x
∥
p
≤
∥
A
∥
m
∥
x
∥
p
(3-1)
\|\pmb{Ax}\|_p \leq \|\pmb{A}\|_m \|\pmb{x}\|_p \tag{3-1}
∥Ax∥p≤∥A∥m∥x∥p(3-1)
则称
∥
∗
∥
m
\| \ast \|_{m}
∥∗∥m 为与向量范数
∥
⋅
∥
p
\| \cdot \|_{p}
∥⋅∥p 相容的矩阵范数。
注:不是所有的矩阵范数都与向量范数相容,只有满足该条件的矩阵范数才与向量范数是相容的。
3.2 算子范数
在介绍该范数之前,需要先了解矩阵的算子范数(诱导范数),矩阵的算子范数,是由向量范数导出的。
设
∥
x
∥
p
\|\pmb{x}\|_p
∥x∥p 是
C
n
\mathbb{C}^n
Cn上的向量范数,
A
∈
C
m
×
n
\pmb{A} \in \mathbb{C}^{m \times n}
A∈Cm×n,则
∥
x
∥
p
=
d
e
f
max
x
≠
0
∥
A
x
∥
p
∥
x
∥
p
(
=
max
∥
x
∥
p
=
1
∥
A
x
∥
p
)
(3-2)
\|\pmb{x}\|_p \overset{def}{=} \max_{\boldsymbol{x} \not= 0}\dfrac{\|\pmb{Ax}\|_p}{\|\boldsymbol{x}\|_p}(= \max_{\|\boldsymbol{x}\|_p=1}\|\pmb{Ax}\|_p) \tag{3-2}
∥x∥p=defx=0max∥x∥p∥Ax∥p(=∥x∥p=1max∥Ax∥p)(3-2)
是与向量范数
∥
x
∥
p
\|\boldsymbol{x}\|_p
∥x∥p相容的矩阵范数。称此矩阵范数为从属于向量范数
∥
x
∥
\|\boldsymbol{x}\|
∥x∥ 的算子范数。
从线性变换的角度理解该范数:矩阵 A \pmb{A} A 作用于向量 x \boldsymbol{x} x,相当于对向量 x \boldsymbol{x} x施加了一次线性变换,(向量 x \pmb{x} x 的算子范数 ∥ x ∥ p \|\boldsymbol{x}\|_p ∥x∥p 相当于该向量长度的一种度量方式)则向量线性变换前后的长度之比为 ∥ A x ∥ p / ∥ x ∥ p \|\pmb{Ax}\|_p / \|\pmb{x}\|_p ∥Ax∥p/∥x∥p,亦即线性变换 A x \boldsymbol{Ax} Ax 相对于 x \boldsymbol{x} x 的放大倍数。因此,矩阵 A \boldsymbol{A} A 的算子范数是由 A \boldsymbol{A} A 产生的最大放大倍数。
(1)列和范数(
p
=
1
p=1
p=1)
∣
∣
A
∣
∣
1
=
max
x
≠
0
∥
A
x
∥
1
∥
x
∥
1
=
max
1
≤
j
≤
n
∑
i
=
1
m
∣
a
i
,
j
∣
(3-3)
||\boldsymbol{A}||_1 =\max_{\boldsymbol{x} \not= 0}\frac{\|\boldsymbol{Ax}\|_1}{\|\boldsymbol{x}\|_1}= \max_{ 1 \leq j \leq n}\sum_{i=1}^m|a_{i,j}| \tag{3-3}
∣∣A∣∣1=x=0max∥x∥1∥Ax∥1=1≤j≤nmaxi=1∑m∣ai,j∣(3-3)
即矩阵的各列元素绝对值之和的最大值(最大绝对列和)。
(2)谱范数(
p
=
2
p=2
p=2)
∣
∣
A
∣
∣
2
=
max
x
≠
0
∥
A
x
∥
2
∥
x
∥
2
=
λ
m
a
x
(
A
H
A
)
=
max
1
≤
i
≤
n
∣
λ
i
∣
,其中
λ
i
为
A
H
A
的特征值
(3-4)
||\boldsymbol{A}||_2 =\max_{\boldsymbol{x} \not= 0}\frac{\|\boldsymbol{Ax}\|_2}{\|\boldsymbol{x}\|_2}=\sqrt{\lambda_{}max(\boldsymbol{A}^H\boldsymbol{A})} = \sqrt{ \max_{ 1 \leq i \leq n} |\lambda_i|},其中\lambda_i 为 \boldsymbol{A}^H\boldsymbol{A}的特征值 \tag{3-4}
∣∣A∣∣2=x=0max∥x∥2∥Ax∥2=λmax(AHA)=1≤i≤nmax∣λi∣,其中λi为AHA的特征值(3-4)
即矩阵
A
\boldsymbol{A}
A 的最大奇异值。(这里的
A
H
\boldsymbol{A}^H
AH代表
A
\boldsymbol{A}
A的共轭转置)
(3)行和范数(
p
=
∞
p=\infty
p=∞)
∣
∣
A
∣
∣
∞
=
max
x
≠
0
∥
A
x
∥
∞
∥
x
∥
∞
=
max
1
≤
i
≤
m
∑
j
=
1
n
∣
a
i
,
j
∣
(3-5)
||\boldsymbol{A}||_\infty =\max_{\boldsymbol{x} \not= 0}\frac{\|\boldsymbol{Ax}\|_{\infty}}{\|\boldsymbol{x}\|_{\infty}}= \max_{ 1 \leq i \leq m}\sum_{j=1}^n|a_{i,j}| \tag{3-5}
∣∣A∣∣∞=x=0max∥x∥∞∥Ax∥∞=1≤i≤mmaxj=1∑n∣ai,j∣(3-5)
即矩阵的各行元素绝对值之和的最大值(最大绝对行和)。
3.3 元素形式范数
将
m
×
n
m \times n
m×n 矩阵先按照列堆栈的形式,排列成一个
m
n
×
1
mn \times 1
mn×1 向量,然后采用向量的范数定义,即得到矩阵的范数。由于这类范数是使用矩阵的元素表示的,故称为元素形式范数。定义如下:
∣
∣
A
∣
∣
p
=
d
e
f
(
∑
i
=
1
m
∑
j
=
1
n
∣
a
i
j
∣
p
)
1
/
p
(3-6)
\left|\left| \boldsymbol{A} \right|\right|_{p} \overset{def}{=} \left( \sum_{i=1}^{m}{ \sum_{j=1}^{n}{ \left| a_{ij} \right|^{p} } } \right)^{1/p} \tag{3-6}
∣∣A∣∣p=def(i=1∑mj=1∑n∣aij∣p)1/p(3-6)
最常用的元素形式范数是
p
=
1
,
2
,
∞
p=1, 2, \infty
p=1,2,∞ 三种情况:
(1)
l
1
l_1
l1范数(和范数)(
p
=
1
p=1
p=1)
∣
∣
A
∣
∣
1
=
∑
i
=
1
m
∑
j
=
1
n
∣
a
i
j
∣
(3-7)
\left|\left| \pmb{A} \right|\right|_{1} = \sum_{i=1}^{m}{ \sum_{j=1}^{n}{ \left| a_{ij} \right| } } \tag{3-7}
∣∣A∣∣1=i=1∑mj=1∑n∣aij∣(3-7)
(2)Frobenius
范数(F-范数)(
p
=
2
p=2
p=2)
∣
∣
A
∣
∣
F
=
(
∑
i
=
1
m
∑
j
=
1
n
∣
a
i
,
j
∣
2
)
=
t
r
(
A
H
A
)
(3-8)
||\pmb{A}||_F=\sqrt{\left(\sum_{i=1}^m\sum_{j=1}^n|a_{i,j}|^2\right)} = \sqrt{tr(\pmb{A}^H\pmb{A})} \tag{3-8}
∣∣A∣∣F=(i=1∑mj=1∑n∣ai,j∣2)=tr(AHA)(3-8)
即矩阵的各个元素平方之和再开平方根。
矩阵的Frobenius
范数有时也称Euclidean
范数、 Schur
范数、Hilbert-Schmidt
范数或者
l
2
l_2
l2范数。
(3)最大范数(max norm)(
p
=
∞
p=\infty
p=∞)
∣
∣
A
∣
∣
p
=
m
a
x
{
∣
a
i
j
∣
}
,
i
=
1
,
⋅
⋅
⋅
,
m
;
j
=
1
,
⋅
⋅
⋅
,
n
(3-9)
\left|\left| \pmb{A} \right|\right|_{p} =max \left\{ \left| a_{ij} \right| \right\}, i=1,\cdot\cdot\cdot,m;j=1,\cdot\cdot\cdot,n \tag{3-9}
∣∣A∣∣p=max{∣aij∣},i=1,⋅⋅⋅,m;j=1,⋅⋅⋅,n(3-9)
3.4 Schatten
范数
Schatten
范数是用矩阵的奇异值定义的范数。在介绍 Schatten
范数之前,有必要先来简单了解一下酉不变范数的概念:
若
U
∈
C
m
×
m
\pmb{U}\in \mathbb{C}^{m\times m}
U∈Cm×m 和
V
∈
C
n
×
n
\pmb{V} \in \mathbb{C}^{n \times n}
V∈Cn×n是两个酉矩阵,满足
∣
∣
A
∣
∣
=
∣
∣
U
A
V
∣
∣
\left|\left| \pmb{A} \right|\right| = \left|\left| \pmb{UAV} \right|\right|
∣∣A∣∣=∣∣UAV∣∣ 的范数称为酉不变范数。令矩阵
A
∈
C
m
×
n
\pmb{A} \in \mathbb{C}^{m \times n}
A∈Cm×n 有奇异值分解
A
=
U
Σ
V
H
\pmb{A} = \pmb{U}\Sigma \pmb{V}^{H}
A=UΣVH 。显然,
∣
∣
A
∣
∣
=
∣
∣
U
H
A
V
∣
∣
=
∣
∣
Σ
∣
∣
\left|\left| \pmb{A}\right|\right| = \left|\left| \pmb{U}^{H}\pmb{AV} \right|\right|=\left|\left| \Sigma\right|\right|
∣∣A∣∣=
UHAV
=∣∣Σ∣∣ 是一酉不变范数。令:
σ
=
[
σ
i
,
⋅
⋅
⋅
,
σ
k
]
T
,
k
=
m
i
n
{
m
,
n
}
(3-10)
\pmb{\sigma} = [ \sigma_{i},\cdot\cdot\cdot,\sigma_{k} ]^{T},k=min\left\{ m,n \right\} \tag{3-10}
σ=[σi,⋅⋅⋅,σk]T,k=min{m,n}(3-10)
表示矩阵
A
m
×
n
\pmb{A}_{m\times n}
Am×n 的全部奇异值组成的向量,则 Schatten-p
范数定义如下:
∣
∣
A
∣
∣
p
=
d
e
f
∣
∣
σ
∣
∣
p
=
(
∑
i
=
1
m
i
n
{
m
,
n
}
σ
i
p
)
1
/
p
(3-11)
\left|\left| \pmb{A} \right|\right|_{p} \overset{def}{=} \left|\left| \pmb{\sigma} \right|\right|_{p} = ( \sum_{i=1}^{ min\left\{m,n\right\} }{ \sigma_{i}^{p} } )^{1/p} \tag{3-11}
∣∣A∣∣p=def∣∣σ∣∣p=(i=1∑min{m,n}σip)1/p(3-11)
最常用的Schatten
范数是
p
=
1
,
2
,
∞
p=1, 2, \infty
p=1,2,∞ 三种情况:
(1)
p
=
1
p=1
p=1 时的Schatten
范数称为核范数(nuclear norm),定义为——矩阵的所有奇异值之和
∣
∣
A
∣
∣
∗
=
∑
i
=
1
m
i
n
{
m
,
n
}
σ
i
=
t
r
(
A
H
A
)
(3-12)
\left|\left| \pmb{A} \right|\right|_{*} = \sum_{i=1}^{min\left\{m,n\right\}}{ \sigma _{i} } = tr(\sqrt{\pmb{A}^{H}\pmb{A}}) \tag{3-12}
∣∣A∣∣∗=i=1∑min{m,n}σi=tr(AHA)(3-12)
即矩阵的奇异值(将矩阵SVD分解)之和,这个范数可以用来低秩表示(因为最小化核范数,相当于最小化矩阵的秩——低秩)。
(2)
p
=
2
p=2
p=2 时的Schatten
范数与 Frobenius
范数等价
∣
∣
A
∣
∣
2
=
∣
∣
A
∣
∣
F
=
∑
i
=
1
m
i
n
{
m
,
n
}
σ
i
2
=
t
r
(
A
H
A
)
=
∑
i
=
1
m
∑
j
=
1
n
∣
a
i
j
∣
2
(3-13)
\left| \left| \pmb{A}\right|\right|_{2} = \left| \left| \pmb{A}\right|\right|_{F} = \sqrt{ \sum_{i=1}^{min\left\{m,n\right\}}{\sigma_i ^{2}} } = \sqrt{ tr(\pmb{A}^{H}\pmb{A}) } = \sum_{i=1}^{m}\sum_{j=1}^{n}\left| a_{ij} \right|^{2} \tag{3-13}
∣∣A∣∣2=∣∣A∣∣F=i=1∑min{m,n}σi2=tr(AHA)=i=1∑mj=1∑n∣aij∣2(3-13)
(3)
p
=
∞
p=\infty
p=∞ 时的 Schatten
范数与算子范数谱范数相同,即
∣
∣
A
∣
∣
∞
=
σ
m
a
x
(
A
)
(3-14)
\left|\left| \pmb{A} \right|\right|_{\infty} = \sigma_{max}(\pmb{A}) \tag{3-14}
∣∣A∣∣∞=σmax(A)(3-14)
即矩阵
A
\pmb{A}
A 的最大奇异值。
参考
- 范数的物理意义:https://blog.csdn.net/jizhihang2000/article/details/7977600
- 范数的概念:https://blog.csdn.net/skybirdhua1989/article/details/17584797
- 范数与距离的关系:https://www.cnblogs.com/wt869054461/p/5935961.html
- 浅谈L0、L1、L2范数及其应用:http://t.hengwei.me/post/浅谈l0l1l2范数及其应用.html
- 机器学习中的范数规则化之(一)L0、L1与L2范数:https://blog.csdn.net/zouxy09/article/details/24971995?spm=1001.2014.3001.5501
- 从K近邻算法、距离度量谈到KD树、SIFT+BBF算法:https://blog.csdn.net/v_july_v/article/details/8203674
- 如何通俗易懂地解释「范数」:https://zhuanlan.zhihu.com/p/26884695
- 矩阵基础 | 向量范数与矩阵范数:https://zhuanlan.zhihu.com/p/265713608