ML0-数学基础

代码大玩家

已于 2022-03-09 15:56:10 修改

阅读量739

点赞数 3

分类专栏：机器学习文章标签：机器学习

于 2021-11-30 12:04:33 首次发布

本文链接：https://blog.csdn.net/weixin_54505580/article/details/121629590

版权

机器学习专栏收录该内容

4 篇文章 2 订阅

订阅专栏

文章目录

1. 数学基础
2. 无约束优化方法
3. 带约束优化方法

1. 数学基础

凸函数：对于区间 $[a, b]$ 中任意两点 $x_1,x_2$ ，均有 $f(\frac{x_1+x_2}{2}) \leq \frac{f(x_1)+f(x_2)}{2}$ ，则称 $f$ 为区间 $[a, b]$ 上的凸函数。
- 性质：二阶导数非负。
- 严格凸函数：二阶导数在区间上恒大于0。
解析解和数值解
- 解析解：解的具体函数形式，用参数表示的解。
- 数值解：把各自的参数值带入到解析式中得到数值。
特征值与特征向量：
- 定义： $Ax=\lambda x \ \ 或 \ \ (A-\lambda E)x=0$ 。其中， $A$ 表示一个 $n * n$ 的实对称矩阵， $\lambda$ 表示矩阵 $A$ 的一个特征值， $x$ 表示矩阵A的特征值对应的特征向量。
- 抽象：一个矩阵代表一个线性变换规则，一个矩阵的乘法运行代表一个变换。
- 举例：如下图所示， $A$ 相当于样本特征， $Y$ 相当于样本标签。算法学习的是 $X$ 。向量 $X$ 通过矩阵 $A$ 这个变化规则可以转化为向量 $Y$
特征值分解：对于 $n * n$ 的方阵 $A$ ， $A=W\Sigma W^T$ ，其中。 $W$ 是这 $n$ 个特征向量所张成的 $n \times n$ 维矩阵，而 $\Sigma$ 为 $n$ 个特征值为主对角线的n×n维矩阵。
奇异值分解SVD：对于 $m * n$ 的非方阵 $A$ ， $A=U\Sigma V^T$ 。其中， $U$ 是一个 $m * m$ 的矩阵； $\Sigma$ 是一个 $m * n$ 的矩阵，除了主对角线上的元素以外全为0，主对角线上的每个元素都称为奇异值； $V$ 是一个 $n * n$ 的矩阵。A的逆矩阵为 $A^{-1}=V{\Sigma}^{-1}U^T$ 。
- 逆矩阵： $A B = B A = E$ ，则称 $A$ 可逆， $B$ 是 $A$ 的逆矩阵 $B= A^{-1}$ 。
- 满秩矩阵：
  - $A$ 为 $n$ 阶方阵时，若 $r (A) = n$ ， $\neq 0$ 。称 $A$ 是满秩、非奇异矩阵
  - $A$ 为 $n$ 阶方阵时，若 $r (A) < n$ ， $∣ A ∣ = 0$ 。称 $A$ 是降秩、奇异矩阵
- 正定矩阵：
  - 正定矩阵的特征值均为正数
  - 正定矩阵的各阶主子式均大于零
泰勒公式： $f(x)=\frac{f(x_0)}{0!}+\frac{f^{'}(x_1)}{1!}(x-x_0)+\frac{f^{''}(x_0)}{2!}(x-x_0)^2+...+\frac{f^n(x_0)}{n!}(x-x_0)^n+R_n(x)$

2. 无约束优化方法

最小二乘法： $L e a s t S q u a r e s$ ，基于均方误差最小化求解多元函数极值（偏导为0时的解）问题的一种方法。
极大似然估计：先假设数据 $D$ 服从某种概率分布，根据联合概率密度函数 $P(D|\theta)$ 构建似然函数。通常将极大似然函数转换成最小化对数似然函数。
梯度下降法：基于一阶泰勒展开式 $f(\theta_1)≈f(\theta_0)+(\theta_1-\theta_0)f^{'}(\theta_0)$ 进行迭代求解的无约束问题优化方法。
- 梯度：单变量函数中是给定点的切线的斜率、在多变量函数中是多个斜率组成的向量。
- 下降：梯度的反方向是函数在给定点下降最快的方向。
- 公式： $\theta^1=\theta^0-\alpha\bigtriangledown J(\theta)$ 。
- 下山：在当前位置 $\theta^0$ 下山最快的方向 $\bigtriangledown J(\theta)$ 以步长为 $\alpha$ 的速度下山。
牛顿法：基于二阶泰勒展开式 $f(\theta_1)≈f(\theta_0)+(\theta_1-\theta_0)f^{'}(\theta_0)+\frac{1}{2}(\theta_1-\theta_0)^2f^{''}(\theta_0)$ 迭代求解的无约束优化方法。
- 牛顿方向： $-H_k^{-1}\bigtriangledown J(\theta)$ 。其中， $H_k^{-1}$ 表示海森矩阵的逆矩阵、 $\bigtriangledown J(\theta)表示梯度$
- 公式： $\theta^1=\theta^0-H_k^{-1}\bigtriangledown J(\theta)$ 。
- 下山：同时考虑梯度的变化趋势和梯度的方向。
拟牛顿法：在牛顿法的基础上，通过正定矩阵近似海森矩阵的逆矩阵简化了计算过程。
对比分析：
- 梯度下降法 $V S$ 最小二乘法：
  1. 梯度下降法需要选择步长，而最小二乘法不需要；
  2. 梯度下降法是迭代求解，最小二乘法是计算解析解；
  3. 样本量很大时，最小二乘法求解很慢（需要求一个很大的逆矩阵）。
- 梯度下降法 $V S$ 牛顿法/拟牛顿法：
  1. 两者都是迭代求解；
  2. 梯度下降法是梯度求解，牛顿法/拟牛顿法是用二阶的海森矩阵的逆矩阵或伪逆矩阵求解；
  3. 牛顿法/拟牛顿法收敛更快，但每次迭代的时间比梯度下降法长。