1. 线性代数
1. 线性代数:
- 向量Vector,可以使任意维度
- 标量Scalar
- 矩阵Matrix,来自相同的向量空间的向量构成矩阵
- 张量Tensor
2. 矩阵运算
- 加减乘,转置
- 两个列向量点成值为一个张量
- 矩阵的秩,极大无关组的个数
- 单位矩阵
- 矩阵行列式
- 矩阵的逆
- 向量标准化
- 伪逆矩阵
- 单位向量和向量投影
- 特征向量,特征值
- 协方差矩阵
- 矩阵的特征方程
- 特征值和特征向量没有指定向量空间
2.1 矩阵和向量相乘
A
A
A为
m
×
n
m \times n
m×n,
B
B
B为
n
×
p
n \times p
n×p
(2.1)
C
=
A
B
\boldsymbol{C} = \boldsymbol{AB}\tag{2.1}
C=AB(2.1)
具体定义为
(2.2)
C
i
,
j
=
∑
A
i
,
k
B
k
,
j
C_{i,j} = \sum A_{i,k}B_{k,j} \tag{2.2}
Ci,j=∑Ai,kBk,j(2.2)
交换律:
(2.3)
A
(
B
+
C
)
=
A
B
+
A
C
\boldsymbol{A(B+C)} = \boldsymbol{AB+AC} \tag{2.3}
A(B+C)=AB+AC(2.3)
结合律:
(2.4)
A
(
B
C
)
=
(
A
B
)
C
\boldsymbol{A(BC)} = \boldsymbol{(AB)C} \tag{2.4}
A(BC)=(AB)C(2.4)
矩阵转置:
(2.5)
(
A
B
)
⊤
=
B
⊤
A
⊤
\mathbf{(AB)}^\top = \mathbf{B}^\top \mathbf{A}^\top \tag{2.5}
(AB)⊤=B⊤A⊤(2.5)
线性方程组:
(2.6)
A
x
=
b
\mathbf{A}\boldsymbol{x} = \mathbf{b} \tag{2.6}
Ax=b(2.6)
其中
A
∈
R
m
×
n
\mathbf{A} \in \mathbb{R}^{m \times n}
A∈Rm×n是一个一直矩阵,
b
∈
R
m
b \in \mathbb{R^m}
b∈Rm是一个已知向量,
x
∈
R
n
\boldsymbol{x} \in \mathbb{R}^n
x∈Rn 是需要求解的未知向量。矩阵的每一行都和向量构成一个约束:
(2.7) A 1 , 1 x 1 + A 1 , 2 x 2 + . . . + A 1 , n x n = b 1 A m , 1 x 1 = A m , 2 x 2 + . . . + A m , n x n = b m A_{1, 1}x_1 + A_{1, 2}x_2 + ... + A_{1, n}x_n = b_1 \\ A_{m, 1}x_1 = A_{m, 2}x_2 + ... + A_{m, n}x_n = b_m \tag{2.7} A1,1x1+A1,2x2+...+A1,nxn=b1Am,1x1=Am,2x2+...+Am,nxn=bm(2.7)
2.2 单位矩阵和逆矩阵
单位矩阵:
(2.9)
∀
x
∈
R
n
,
I
n
x
=
x
\forall \boldsymbol{x} \in \mathbb{R^n}, \boldsymbol{I}_n\boldsymbol{x} = \boldsymbol{x} \tag{2.9}
∀x∈Rn,Inx=x(2.9)
矩阵
A
\mathbf{A}
A的逆矩阵为
A
−
1
\mathbf{A}^{-1}
A−1,满足:
A
−
1
A
=
I
n
\mathbf{A}^{-1} \mathbf{A} = \boldsymbol{I}_n
A−1A=In
对2.6求解:
A
−
1
A
x
=
A
−
1
b
I
n
x
=
A
−
1
b
x
=
A
−
1
b
\mathbf{A}^{-1}\mathbf{A}\boldsymbol{x} = \mathbf{A}^{-1}\mathbf{b}\\ \boldsymbol{I}_n\boldsymbol{x} = \mathbf{A}^{-1}\mathbf{b}\\ \boldsymbol{x} = \mathbf{A}^{-1}\mathbf{b}
A−1Ax=A−1bInx=A−1bx=A−1b
2.3 线性相关和生成子空间(逆矩阵存在条件)
要想矩阵可逆,必须保证每一个
b
\mathbf{b}
b值至多有一个解,为此需要保证矩阵列向量的个数等于
b
\mathbf{b}
b值的个数,且线性无关,也就意味着矩阵必须是一个方阵,并且列向量之间线性无关。
一个列向量线性相关的矩阵是奇异的。
线性组合:形式上是每个向量乘以对应标量系数之后的和:
∑
i
c
i
v
(
i
)
\sum_i c_iv^{(i)}
∑iciv(i)
生成子空间:原始向量线性组合后所能抵达的点的集合
确定 A x = b \mathbf{A}\boldsymbol{x} = \mathbf{b} Ax=b是否有解,相当于确定向量 b \mathbf{b} b是否在 A \mathbf{A} A的生成子空间中。,这个特殊的生成子空间被称为 A \mathbf{A} A的列空间或者值域。
如果任意一组向量中的任意一个向量都不能表示其他向量的线性组合,那么该组向量称为线性无关
2.4 范数
L
p
L^p
Lp范数的定义:(p次方之和再开p次根)
(2.10)
∣
∣
x
∣
∣
p
=
(
∑
i
∣
x
i
∣
p
)
1
p
(
p
∈
R
,
p
>
1
)
||\boldsymbol{x}||_p = \bigg(\sum_i|x_i|^p \bigg)^{\frac{1}{p}} (p \in \mathbb{R}, p > 1)\tag{2.10}
∣∣x∣∣p=(i∑∣xi∣p)p1(p∈R,p>1)(2.10)
范数是将向量映射到非负值的函数,直观上来说,向量
x
\boldsymbol{x}
x的范数衡量从原点到
x
\boldsymbol{x}
x的距离,是满足下列性质的任意函数:
(三角不等式)
1.
f
(
x
)
=
0
→
x
=
0
2.
f
(
x
+
y
)
≤
f
(
x
)
+
f
(
y
)
3.
∀
α
∈
R
,
f
(
α
x
)
=
∣
α
∣
f
(
x
)
1.\qquad f(\boldsymbol{x}) = 0 \rightarrow \boldsymbol{x} = \bold0 \\ 2.\qquad f(\boldsymbol{x} + \boldsymbol{y}) \le f(\boldsymbol{x}) + f(\boldsymbol{y})\tag{三角不等式} \\ 3.\qquad \forall \alpha \in \mathbb{R}, f(\alpha \boldsymbol{x}) = |\alpha| f(\boldsymbol{x})
1.f(x)=0→x=02.f(x+y)≤f(x)+f(y)3.∀α∈R,f(αx)=∣α∣f(x)(三角不等式)
平方 L 2 L^2 L2范数在数学和计算上都比 L 2 L^2 L2本身更方便,比如平方 L 2 L^2 L2范数的导数只和对应的元素相关,但是 L 2 L^2 L2范数和整个向量相关。而且平方 L 2 L^2 L2范数可以通过点积 x ⊤ x \boldsymbol{x}^\top\boldsymbol{x} x⊤x获得。
但是, L 2 L^2 L2在原点附近增长缓慢,当0正好为界限时,变化不明显,表现不是很好。此时可以使用 L 1 L^1 L1: ∣ ∣ x ∣ ∣ = ∑ i ∣ x i ∣ ||\boldsymbol{x}|| = \sum_i |x_i| ∣∣x∣∣=∑i∣xi∣当零和非零元素之间的差异非常重要时,可以使用 L 1 L^1 L1范数,当 x \boldsymbol{x} x从0增加到 ϵ \epsilon ϵ,对应的范数也增加 ϵ \epsilon ϵ。
衡量矩阵的大小,深度学习中常用Frobenius范数:
(2.11)
∣
∣
A
∣
∣
F
=
∑
i
,
j
A
i
,
j
2
||\mathbf{A}||_F = \sqrt{{\sum_{i, j}}A^2_{i, j}} \tag{2.11}
∣∣A∣∣F=i,j∑Ai,j2(2.11)
2.5 特征分解
方阵
A
\mathbf{A}
A的特征向量是指与
A
\mathbf{A}
A相乘后相当于该向量进行缩放后的非零向量
v
\boldsymbol{v}
v:
(2.12)
A
v
=
λ
v
\mathbf{A}\boldsymbol{v} = \lambda \boldsymbol{v} \tag{2.12}
Av=λv(2.12)
假设矩阵
A
\mathbf{A}
A有
n
n
n个线性无关的特征向量
{
v
(
1
)
,
.
.
.
,
v
(
n
)
}
\{ \boldsymbol{v}^{(1)}, ... , \boldsymbol{v}^{(n)} \}
{v(1),...,v(n)}对应的特征值
{
λ
1
,
.
.
.
λ
n
}
\{\lambda_1, ... \lambda_n\}
{λ1,...λn},将特征向量构成矩阵,特征值构成向量:
V
=
[
v
(
1
)
,
.
.
.
,
v
(
n
)
]
,
λ
=
[
λ
1
,
.
.
.
λ
n
]
⊤
;
A
\mathbf{V} = [\boldsymbol{v}^{(1)}, ... , \boldsymbol{v}^{(n)}], \mathbf{\lambda} = [\lambda_1, ... \lambda_n]^\top; \mathbf{A}
V=[v(1),...,v(n)],λ=[λ1,...λn]⊤;A的特征分解为:
(2.13)
A
=
V
d
i
a
g
(
λ
)
V
−
1
A
=
Q
Λ
Q
⊤
\mathbf{A} = \mathbf{V} diag(\mathbf{\lambda}) \mathbf{V}^{-1} \tag{2.13} \\ \mathbf{A} = \mathbf{Q} \Lambda \mathbf{Q}^\top
A=Vdiag(λ)V−1A=QΛQ⊤(2.13)
其中
Q
\mathbf{Q}
Q是
A
\mathbf{A}
A的特征向量组成的正交矩阵,
Λ
\mathbf{\Lambda}
Λ是特征值的对角矩阵。
2.6 奇异值分解
奇异值分解是 得到特征分解相同类型的信息
数值计算(微积分)
1. 梯度下降
大多数深度学习算法需要最小化目标函数(损失函数,代价函数)
(1.1)
L
o
s
s
=
f
(
∣
y
−
y
^
∣
)
z
=
∣
y
−
y
^
∣
L
o
s
s
=
f
(
z
)
Loss = f(|y - \hat{y}|) \tag{1.1} \\ \quad z = |y - \hat{y}| \\ Loss = f(z)
Loss=f(∣y−y^∣)z=∣y−y^∣Loss=f(z)(1.1)
梯度:一个向量求导的导数。
f
f
f的梯度:包含所有偏导的向量
∇
x
f
(
x
)
\nabla_xf(x)
∇xf(x),梯度的第
i
i
i个元素是
f
f
f对
x
i
x_i
xi的偏导数
梯度下降:
x
′
=
x
=
ϵ
∇
x
f
(
x
)
x' = x = \epsilon \nabla_xf(x)
x′=x=ϵ∇xf(x)
ϵ
\epsilon
ϵ为学习率
2. 约束优化
使用范数
3. 上溢下溢
连续数学在数字计算机上的根本困难是,我们需要通过有限的位模拟来表示无限多的数。这就意味着我们在计算机中表示实数时,几乎总会引入一些近似误差。在许多情况下,这仅仅是舍入误差。舍入误差会导致一些问题,特别是当一些操作复合时,即使是理论上可行的算法,如果在设计时没有考虑到最小舍入误差的累积,在实践时,也可能会导致算法失效。
一种几句毁灭性的舍入误差是下溢,当接近零的数被四舍五入为零时发生下溢。许多函数在其参数为零而不是很小的正数时才会表现出质的的不同。例如,通常需要避免被零除(一些会抛出异常,一些返回NaN)或避免取零的对数。
另一种极具破坏力的数值错误方式是上溢当大量级的数近似为无穷时发生上溢。
举例: s o f t m a x ( x ) = e x p ( x i ) ∑ j = i n e x p ( x j ) softmax(\boldsymbol{x}{}) = \frac{exp(x_i)}{\sum_{j = i}^n exp(x_j)} softmax(x)=∑j=inexp(xj)exp(xi),当所有的 x i x_i xi都等于某个常数 c c c,时会发生什么?
- 理论上说,最后的输出都应该为 1 n \frac{1}{n} n1。
- 数值上说,当 c c c量级很大时,
概率与信息论
1. 频率概率和贝叶斯概率
频率概率:概率直接与事件发生的频率相联系,如扔骰子
贝叶斯概率:涉及到确定性水平,或者信任度。
一个随机变量是对可能的状态的一个描述;必须伴随一个概率分布来描述指定状态的可能性
2. 概率分布
2.1 离散型变量和概率质量函数(PMF)
概率质量函数能够将随机变量取得的每个状态映射到随机变量取得该状态的概率。
概率质量函数可以同时作用于多个随机变量,多变量概率分布为联合概率分布。
注:PMF也可以成为概率分布律
2.2 连续型变量和概率密度函数(PDF)
概率密度函数 p ( x ) p(x) p(x)并没有直接对特定的状态给出概率,其在某一区间的面积为概率,因此可以对概率密度函数求积分获取概率。
3. 边缘概率
已知一组联合概率分布,求子集的概率分布,采用求和法:
离散,将
y
=
y
\mathrm{y} = y
y=y的部分求和:
∀
x
∈
x
,
P
(
x
=
x
)
=
∑
y
P
(
x
=
x
,
y
=
y
)
\forall x \in \mathrm{x}, P(\mathrm{x} = x) = \sum_yP(\mathrm{x}= x, \mathrm{y} = y)
∀x∈x,P(x=x)=y∑P(x=x,y=y)
连续,将
y
\mathrm{y}
y的部分积分:
p
(
x
)
=
∫
p
(
x
,
y
)
d
y
p(x) = \int p(x, y)dy
p(x)=∫p(x,y)dy
4. 条件概率
(1.1)
P
(
A
∣
B
)
=
P
(
A
B
)
P
(
B
)
⇒
P
(
A
B
)
=
P
(
B
)
P
(
A
∣
B
)
P(A|B) = \frac{P(AB)}{P(B)} \Rightarrow P(AB) = P(B)P(A|B) \tag{1.1}
P(A∣B)=P(B)P(AB)⇒P(AB)=P(B)P(A∣B)(1.1)
条件概率的概率链式法则
P
(
A
1
A
2
A
3
.
.
.
A
n
)
=
P
(
A
1
)
P
(
A
2
∣
A
1
)
P
(
A
3
∣
A
1
A
2
)
.
.
.
.
P
(
A
n
∣
A
1
A
2
.
.
.
A
(
n
−
1
)
)
P
(
A
1
)
∏
i
=
2
n
P
(
A
i
∣
A
1
A
2
.
.
.
A
(
n
−
1
)
)
P(A_1A_2A_3...A_n) = P(A_1)P(A_2|A_1)P(A_3|A_1A_2)....P(A_n|A_1A_2...A_{(n-1)})\\ P(A_1) \prod_{i=2}^nP(A_i|A_1A_2...A_{(n-1)})
P(A1A2A3...An)=P(A1)P(A2∣A1)P(A3∣A1A2)....P(An∣A1A2...A(n−1))P(A1)i=2∏nP(Ai∣A1A2...A(n−1))
5.期望、方差、协方差
-
期望:当 x x x由 P P P产生, f f f作用于 x x x时, f ( x ) f(x) f(x)的平均值。
离散:
E x ∼ P [ f ( x ) ] = ∑ x P ( x ) f ( x ) \mathbb{E}_{x \thicksim P}[f(x)] = \sum_xP(x)f(x) Ex∼P[f(x)]=x∑P(x)f(x)
连续:
E x ∼ P [ f ( x ) ] = ∫ p ( x ) f ( x ) d x \mathbb{E}_{x \thicksim P} [f(x)]=\int p(x)f(x)dx Ex∼P[f(x)]=∫p(x)f(x)dx -
方差:和平均值的差异,差异越大,方差越大,波动越大;标准差是对其进行开方
-
方差衡量的是当对 x x x,依据它的概率分布进行采样时,随机变量 x x x的函数值呈现多大的差异
V a r ( f ( x ) ) = E [ ( f ( x ) − E [ f ( x ) ] ) 2 ] Var(f(x)) = \mathbb{E}[(f(x) - \mathbb{E}[f(x)])^2] Var(f(x))=E[(f(x)−E[f(x)])2] -
协方差:两个变量线性相关性的强调,以及变量的尺度;如果绝对值很大,则意味着变量值变化大尺度很大,且同时距离各自的均值很远。
C o v ( f ( x ) , g ( y ) ) = E [ ( f ( x ) − E [ f ( x ) ] ) ( g ( y ) − E [ g ( y ) ] ) ] Cov(f(x), g(y)) = \mathbb{E}[(f(x) - \mathbb{E}[f(x)])(g(y) - \mathbb{E}[g(y)])] Cov(f(x),g(y))=E[(f(x)−E[f(x)])(g(y)−E[g(y)])]
6. 常用的分布
6.1 伯努利(两点分布)分布(Bernoulli)
该分布研究的是一种特殊的实验,这种实验只有两个结果要么成功(1)要么失败(0),且每次实验是独立的并每次实验都有固定的成功概率p。
P
(
x
=
x
)
=
p
x
(
1
−
p
)
1
−
x
=
{
p
(
x
=
1
)
q
(
x
=
0
)
P(\mathrm{x} = x) = p^x(1-p)^{1-x} = \bigg \{ \begin{aligned} p & \quad(x = 1) \\ q & \quad(x = 0) \end{aligned}
P(x=x)=px(1−p)1−x={pq(x=1)(x=0)
期望:
E
(
x
)
=
1
⋅
p
+
0
⋅
(
1
−
p
)
=
p
E(x) = 1 \centerdot p +0 \centerdot(1-p) = p
E(x)=1⋅p+0⋅(1−p)=p
方差:
V
a
r
(
x
)
=
E
[
(
x
−
E
[
x
]
)
2
]
=
∑
(
x
−
p
)
2
P
(
x
)
=
p
q
Var(x) = E[(x - E[x])^2] = \sum(x-p)^2P(x) = pq
Var(x)=E[(x−E[x])2]=∑(x−p)2P(x)=pq
6.2 二项分布
描述N次独立的伯努利实验中有m次成功(即 x=1)的概率,其中每次伯努利实验成功的概率为
μ
∈
[
0
,
1
]
\mu \in [ 0,1 ]
μ∈[0,1]。所期望的结果出现次数的概率(如,成功
x
x
x次的概率),如果
X
∼
B
(
n
,
p
)
X \sim B(n, p)
X∼B(n,p),对应的概率质量函数;
(6.1)
P
(
x
)
=
P
(
X
=
x
)
=
C
n
x
p
x
(
1
−
p
)
n
−
x
C
n
x
=
n
!
k
!
(
n
−
k
)
!
P(x) = P(X = x) = C_n^xp^x (1-p)^{n-x}\\ C_n^x = \frac{n!}{k!(n-k)!} \tag{6.1}
P(x)=P(X=x)=Cnxpx(1−p)n−xCnx=k!(n−k)!n!(6.1)
均值:
E
[
X
]
=
n
p
,
p
E[X] = np, p
E[X]=np,p表示取得成功结果的概率,即Eq6.1的值。
方差:
V
a
r
(
x
)
=
n
p
q
Var(x) = npq
Var(x)=npq
分布形状的变化规律:
- "成功"概率p越接近0.5(也即"成功"概率与"失败"概率越接近),二项分布将越对称。保持二项分布试验的次数n不变,随着成功概率p越接近0.5,二项分布逐渐对称,且近似于均值为np、方差为npq的正态分布。(见下图的第一排3个子图) (实验次数不变,看概率变化)
- 对于任意"成功"概率p,无论其距离0.5有多远,随着试验次数n的增加,二项分布与均值为np、方差为npq的正态分布越来越接近。(见下图的第二排3个子图) (概率不变,看实验次数变化)
以上两个二项分布形状变化规律,可明显由下图观察出来。图中的横轴代表试验"成功"的次数;纵轴代表次数对应的概率;红线是均值为np、方差为npq的正态分布曲线。
6.3 多项式分布(Multinomial)
将二项式分布推广到多项式分布(Multinomial Distribution),二项式分布式n次伯努利实验,规定了每次的实验结果只有两个。现在还是做n次实验,只不过每次实验的结果变成了m个,且m个结果发生的概率互斥且和为1,则发生其中一个结果X次的概率就是多项式分布。
扔骰子是典型的多项式分布。骰子有6个面对应6个不同的点数,这样单次每个点数朝上的概率都是1/6(对应p1~p6,它们的值不一定都是1/6,只要和为1且互斥即可,比如一个形状不规则的骰子),重复扔n次,如果问有 x x x次都是点数6朝上的概率就是
P
(
X
=
k
)
=
C
n
k
p
(
6
)
k
(
1
−
p
(
6
)
)
n
−
k
,
k
=
(
0
,
1
,
2
,
⋯
,
n
)
P(X=k)=C_n^kp_{(6)}^k (1−p_{(6)} )^{n−k} ,k=(0,1,2,⋯,n)
P(X=k)=Cnkp(6)k(1−p(6))n−k,k=(0,1,2,⋯,n)
推广为一般的概率质量函数:
P
(
x
1
,
x
2
,
x
3
,
.
.
.
,
x
k
)
=
n
!
m
1
!
m
2
!
.
.
.
m
k
∏
i
=
1
n
p
i
m
i
,
  
∑
i
=
1
n
p
i
=
1
P(x_1, x_2, x_3, ..., x_k) = \frac{n!}{m_1!m_2!...m_k} \prod_{i = 1}^np_i^{m_i}, \;\sum_{i = 1}^n p_i = 1
P(x1,x2,x3,...,xk)=m1!m2!...mkn!i=1∏npimi,i=1∑npi=1
将试验进行N次,第
i
i
i=种可能发生的次数为
m
i
m_i
mi,
∑
i
k
m
i
=
n
\sum_i^k m_i = n
∑ikmi=n,将每种情况发生的次数加起来就是总共的N次
质量函数推导:
- k种(类别)独立的取值可能,n次实验,每种可能的概率为 p 1 , p 1 , . . . , p k p_1, p_1, ..., p_k p1,p1,...,pk。
- 第一种没选中
m
1
m_1
m1次,第二种被选中
m
2
m_2
m2,第k种选中
m
k
m_k
mk的概率为:
C n m 1 p 1 m 1 ⋅ C n − m 1 m 2 p 2 m 2 ⋅ . . .    ⋅ C n − m 1 − m 2 − . . . − m k 1 m k p k m k = 1 C_n^{m_1}p_1^{m_1} \centerdot C_{n-m_1}^{m_2}p_2^{m_2} \centerdot ... \;\centerdot C_{n-m1-m_2-...-m_{k_1}}^{m_k}p_k^{m_k} = 1 Cnm1p1m1⋅Cn−m1m2p2m2⋅...⋅Cn−m1−m2−...−mk1mkpkmk=1
注:utinoulli分布是多项式分布的特例
6.4 高斯分布(正态分布)
正态分布由两个参数控制,均值:
μ
∈
R
\mu \in \mathbb{R}
μ∈R,方差 :
σ
∈
(
1
,
∞
)
\sigma \in (1, \infty)
σ∈(1,∞)
(6.4.1)
N
(
x
;
μ
,
σ
2
)
=
1
2
π
σ
2
e
x
p
(
−
1
2
σ
2
(
x
−
μ
)
2
)
N(x; \mu, \sigma^2) = \sqrt{\frac{1}{2 \pi \sigma^2}}exp(-\frac{1}{2\sigma^2}(x- \mu)^2) \tag{6.4.1}
N(x;μ,σ2)=2πσ21exp(−2σ21(x−μ)2)(6.4.1)
多维正态分布:
(6.4.2)
N
(
x
;
μ
,
Σ
)
=
1
(
2
π
)
n
d
e
t
(
Σ
)
e
x
p
(
−
1
2
(
x
−
μ
)
)
⊤
Σ
−
1
(
x
−
μ
)
)
N( \boldsymbol{x}; \boldsymbol{\mu}, \boldsymbol{\Sigma}) = \sqrt{\frac{1} {(2\pi)^n det(\boldsymbol{\Sigma})}} exp \bigg(-\frac{1}{2} (\boldsymbol{x}- \boldsymbol{\mu}))^\top \Sigma^{-1}(\boldsymbol{x}- \boldsymbol{\mu})\bigg) \tag{6.4.2}
N(x;μ,Σ)=(2π)ndet(Σ)1exp(−21(x−μ))⊤Σ−1(x−μ))(6.4.2)
Σ
\boldsymbol{\Sigma}
Σ是分布的协方差矩阵
正态分布被广泛应用的原因:
- 很多分布的真实情况是比较接近正态分布的
- 相同方差的所有可能概率分布中,正态分布具有最大的不确定性。
6.5 指数分布和Laplace分布
深度学习经常需要一个在x=0出取得边界点的分布。可以使用指数分布:
(6.5.1)
p
(
x
;
λ
)
=
λ
1
x
≥
0
e
x
p
(
−
λ
x
)
p(x; \lambda) = \lambda \bold{1}_{x \ge 0}exp(- \lambda x) \tag{6.5.1}
p(x;λ)=λ1x≥0exp(−λx)(6.5.1)
Laplace分布可以在任意
μ
\mu
μ处设置概率质量的峰值,由于它可以看作是两个不同位置的指数分布背靠背拼接在一起,所以它也叫作双指数分布.两个相互独立同概率分布指数随机变量之间的差别是按照指数分布的随机时间布朗运动,所以它遵循拉普拉斯分布. :
(6.5.2)
L
a
p
l
a
c
e
(
x
;
μ
,
γ
)
=
1
2
γ
e
x
p
(
−
∣
x
−
μ
∣
γ
)
Laplace(x; \mu, \gamma) = \frac{1}{2 \gamma }exp(-\frac{|x-\mu|}{\gamma }) \tag{6.5.2}
Laplace(x;μ,γ)=2γ1exp(−γ∣x−μ∣)(6.5.2)
6.6 经验分布函数
7. 信息论
信息论的基本思想是:一个不太可能发生的事件发生了,要比一个非常可能的事件发生,能提更多的信息。
- 非常可能发生的事件信息量较少,并且极端情况下,确保能发生的事件没有信息量
- 较不可能发生的事件具有更高的信息量
- 独立事件具有增量的信息量,例如,投掷硬币两次正面向上的信息量,应该是投掷一次正面向上的2倍。
https://www.jianshu.com/p/59335680cc29
https://blog.csdn.net/bitcarmanlee/article/details/82156281
深度学习 Ian
https://blog.csdn.net/shenxiaoming77/article/details/50630216