1. 数学基础
- 凸函数:对于区间
[
a
,
b
]
[a, b]
[a,b]中任意两点
x
1
,
x
2
x_1,x_2
x1,x2,均有
f
(
x
1
+
x
2
2
)
≤
f
(
x
1
)
+
f
(
x
2
)
2
f(\frac{x_1+x_2}{2}) \leq \frac{f(x_1)+f(x_2)}{2}
f(2x1+x2)≤2f(x1)+f(x2),则称
f
f
f为区间
[
a
,
b
]
[a, b]
[a,b]上的凸函数。
- 性质:二阶导数非负。
- 严格凸函数:二阶导数在区间上恒大于0。
- 解析解和数值解
- 解析解:解的具体函数形式,用参数表示的解。
- 数值解:把各自的参数值带入到解析式中得到数值。
- 特征值与特征向量:
- 定义: A x = λ x 或 ( A − λ E ) x = 0 Ax=\lambda x \ \ 或 \ \ (A-\lambda E)x=0 Ax=λx 或 (A−λE)x=0。其中, A A A表示一个 n ∗ n n*n n∗n的实对称矩阵, λ \lambda λ表示矩阵 A A A的一个特征值, x x x表示矩阵A的特征值对应的特征向量。
- 抽象:一个矩阵代表一个线性变换规则,一个矩阵的乘法运行代表一个变换。
- 举例:如下图所示,
A
A
A相当于样本特征,
Y
Y
Y相当于样本标签。算法学习的是
X
X
X。向量
X
X
X通过矩阵
A
A
A这个变化规则可以转化为向量
Y
Y
Y
- 特征值分解:对于 n ∗ n n*n n∗n的方阵 A A A, A = W Σ W T A=W\Sigma W^T A=WΣWT,其中。 W W W是这 n n n个特征向量所张成的 n × n n×n n×n维矩阵,而 Σ \Sigma Σ为 n n n个特征值为主对角线的n×n维矩阵。
- 奇异值分解SVD:对于
m
∗
n
m*n
m∗n的非方阵
A
A
A,
A
=
U
Σ
V
T
A=U\Sigma V^T
A=UΣVT。其中,
U
U
U是一个
m
∗
m
m*m
m∗m的矩阵;
Σ
\Sigma
Σ是一个
m
∗
n
m*n
m∗n的矩阵,除了主对角线上的元素以外全为0,主对角线上的每个元素都称为奇异值;
V
V
V是一个
n
∗
n
n*n
n∗n的矩阵。A的逆矩阵为
A
−
1
=
V
Σ
−
1
U
T
A^{-1}=V{\Sigma}^{-1}U^T
A−1=VΣ−1UT。
- 逆矩阵: A B = B A = E AB=BA=E AB=BA=E,则称 A A A可逆, B B B是 A A A的逆矩阵 B = A − 1 B= A^{-1} B=A−1。
- 满秩矩阵:
- A A A为 n n n阶方阵时,若 r ( A ) = n r(A)=n r(A)=n, ∣ A ∣ ≠ 0 |A| \neq 0 ∣A∣=0。称 A A A是满秩、非奇异矩阵
- A A A为 n n n阶方阵时,若 r ( A ) < n r(A)<n r(A)<n, ∣ A ∣ = 0 |A| = 0 ∣A∣=0。称 A A A是降秩、奇异矩阵
- 正定矩阵:
- 正定矩阵的特征值均为正数
- 正定矩阵的各阶主子式均大于零
- 泰勒公式: f ( x ) = f ( x 0 ) 0 ! + f ′ ( x 1 ) 1 ! ( x − x 0 ) + f ′ ′ ( x 0 ) 2 ! ( x − x 0 ) 2 + . . . + f n ( x 0 ) n ! ( x − x 0 ) n + R n ( x ) f(x)=\frac{f(x_0)}{0!}+\frac{f^{'}(x_1)}{1!}(x-x_0)+\frac{f^{''}(x_0)}{2!}(x-x_0)^2+...+\frac{f^n(x_0)}{n!}(x-x_0)^n+R_n(x) f(x)=0!f(x0)+1!f′(x1)(x−x0)+2!f′′(x0)(x−x0)2+...+n!fn(x0)(x−x0)n+Rn(x)
2. 无约束优化方法
- 最小二乘法: L e a s t S q u a r e s Least Squares LeastSquares,基于均方误差最小化求解多元函数极值(偏导为0时的解)问题的一种方法。
- 极大似然估计:先假设数据 D D D服从某种概率分布,根据联合概率密度函数 P ( D ∣ θ ) P(D|\theta) P(D∣θ)构建似然函数。通常将极大似然函数转换成最小化对数似然函数。
- 梯度下降法:基于一阶泰勒展开式
f
(
θ
1
)
≈
f
(
θ
0
)
+
(
θ
1
−
θ
0
)
f
′
(
θ
0
)
f(\theta_1)≈f(\theta_0)+(\theta_1-\theta_0)f^{'}(\theta_0)
f(θ1)≈f(θ0)+(θ1−θ0)f′(θ0)进行迭代求解的无约束问题优化方法。
- 梯度:单变量函数中是给定点的切线的斜率、在多变量函数中是多个斜率组成的向量。
- 下降:梯度的反方向是函数在给定点下降最快的方向。
- 公式: θ 1 = θ 0 − α ▽ J ( θ ) \theta^1=\theta^0-\alpha\bigtriangledown J(\theta) θ1=θ0−α▽J(θ)。
- 下山:在当前位置 θ 0 \theta^0 θ0下山最快的方向 ▽ J ( θ ) \bigtriangledown J(\theta) ▽J(θ)以步长为 α \alpha α的速度下山。
- 牛顿法:基于二阶泰勒展开式
f
(
θ
1
)
≈
f
(
θ
0
)
+
(
θ
1
−
θ
0
)
f
′
(
θ
0
)
+
1
2
(
θ
1
−
θ
0
)
2
f
′
′
(
θ
0
)
f(\theta_1)≈f(\theta_0)+(\theta_1-\theta_0)f^{'}(\theta_0)+\frac{1}{2}(\theta_1-\theta_0)^2f^{''}(\theta_0)
f(θ1)≈f(θ0)+(θ1−θ0)f′(θ0)+21(θ1−θ0)2f′′(θ0)迭代求解的无约束优化方法。
- 牛顿方向: − H k − 1 ▽ J ( θ ) -H_k^{-1}\bigtriangledown J(\theta) −Hk−1▽J(θ)。 其中, H k − 1 H_k^{-1} Hk−1表示海森矩阵的逆矩阵、 ▽ J ( θ ) 表 示 梯 度 \bigtriangledown J(\theta)表示梯度 ▽J(θ)表示梯度
- 公式: θ 1 = θ 0 − H k − 1 ▽ J ( θ ) \theta^1=\theta^0-H_k^{-1}\bigtriangledown J(\theta) θ1=θ0−Hk−1▽J(θ)。
- 下山:同时考虑梯度的变化趋势和梯度的方向。
- 拟牛顿法:在牛顿法的基础上,通过正定矩阵近似海森矩阵的逆矩阵简化了计算过程。
- 对比分析:
- 梯度下降法
V
S
VS
VS 最小二乘法:
- 梯度下降法需要选择步长,而最小二乘法不需要;
- 梯度下降法是迭代求解,最小二乘法是计算解析解;
- 样本量很大时,最小二乘法求解很慢(需要求一个很大的逆矩阵)。
- 梯度下降法
V
S
VS
VS 牛顿法/拟牛顿法:
- 两者都是迭代求解;
- 梯度下降法是梯度求解,牛顿法/拟牛顿法是用二阶的海森矩阵的逆矩阵或伪逆矩阵求解;
- 牛顿法/拟牛顿法收敛更快,但每次迭代的时间比梯度下降法长。
- 梯度下降法
V
S
VS
VS 最小二乘法:
3. 带约束优化方法
- 拉格朗日乘子法: