ML0-数学基础

1. 数学基础

  • 凸函数:对于区间 [ a , b ] [a, b] [a,b]中任意两点 x 1 , x 2 x_1,x_2 x1,x2,均有 f ( x 1 + x 2 2 ) ≤ f ( x 1 ) + f ( x 2 ) 2 f(\frac{x_1+x_2}{2}) \leq \frac{f(x_1)+f(x_2)}{2} f(2x1+x2)2f(x1)+f(x2),则称 f f f为区间 [ a , b ] [a, b] [a,b]上的凸函数。
    • 性质:二阶导数非负。
    • 严格凸函数:二阶导数在区间上恒大于0。
  • 解析解和数值解
    • 解析解:解的具体函数形式,用参数表示的解。
    • 数值解:把各自的参数值带入到解析式中得到数值。
  • 特征值与特征向量
    • 定义 A x = λ x    或    ( A − λ E ) x = 0 Ax=\lambda x \ \ 或 \ \ (A-\lambda E)x=0 Ax=λx    (AλE)x=0。其中, A A A表示一个 n ∗ n n*n nn的实对称矩阵, λ \lambda λ表示矩阵 A A A的一个特征值, x x x表示矩阵A的特征值对应的特征向量。
    • 抽象:一个矩阵代表一个线性变换规则,一个矩阵的乘法运行代表一个变换。
    • 举例:如下图所示, A A A相当于样本特征, Y Y Y相当于样本标签。算法学习的是 X X X。向量 X X X通过矩阵 A A A这个变化规则可以转化为向量 Y Y Y 在这里插入图片描述
  • 特征值分解:对于 n ∗ n n*n nn的方阵 A A A A = W Σ W T A=W\Sigma W^T A=WΣWT,其中。 W W W是这 n n n个特征向量所张成的 n × n n×n n×n维矩阵,而 Σ \Sigma Σ n n n个特征值为主对角线的n×n维矩阵。
  • 奇异值分解SVD:对于 m ∗ n m*n mn的非方阵 A A A A = U Σ V T A=U\Sigma V^T A=UΣVT。其中, U U U是一个 m ∗ m m*m mm的矩阵; Σ \Sigma Σ是一个 m ∗ n m*n mn的矩阵,除了主对角线上的元素以外全为0,主对角线上的每个元素都称为奇异值; V V V是一个 n ∗ n n*n nn的矩阵。A的逆矩阵为 A − 1 = V Σ − 1 U T A^{-1}=V{\Sigma}^{-1}U^T A1=VΣ1UT
    • 逆矩阵 A B = B A = E AB=BA=E AB=BA=E,则称 A A A可逆, B B B A A A的逆矩阵 B = A − 1 B= A^{-1} B=A1
    • 满秩矩阵
      • A A A n n n阶方阵时,若 r ( A ) = n r(A)=n r(A)=n ∣ A ∣ ≠ 0 |A| \neq 0 A=0。称 A A A是满秩、非奇异矩阵
      • A A A n n n阶方阵时,若 r ( A ) < n r(A)<n r(A)<n ∣ A ∣ = 0 |A| = 0 A=0。称 A A A是降秩、奇异矩阵
    • 正定矩阵
      • 正定矩阵的特征值均为正数
      • 正定矩阵的各阶主子式均大于零
  • 泰勒公式 f ( x ) = f ( x 0 ) 0 ! + f ′ ( x 1 ) 1 ! ( x − x 0 ) + f ′ ′ ( x 0 ) 2 ! ( x − x 0 ) 2 + . . . + f n ( x 0 ) n ! ( x − x 0 ) n + R n ( x ) f(x)=\frac{f(x_0)}{0!}+\frac{f^{'}(x_1)}{1!}(x-x_0)+\frac{f^{''}(x_0)}{2!}(x-x_0)^2+...+\frac{f^n(x_0)}{n!}(x-x_0)^n+R_n(x) f(x)=0!f(x0)+1!f(x1)(xx0)+2!f(x0)(xx0)2+...+n!fn(x0)(xx0)n+Rn(x)

2. 无约束优化方法

  • 最小二乘法 L e a s t S q u a r e s Least Squares LeastSquares,基于均方误差最小化求解多元函数极值(偏导为0时的解)问题的一种方法。
  • 极大似然估计:先假设数据 D D D服从某种概率分布,根据联合概率密度函数 P ( D ∣ θ ) P(D|\theta) P(Dθ)构建似然函数。通常将极大似然函数转换成最小化对数似然函数。
  • 梯度下降法:基于一阶泰勒展开式 f ( θ 1 ) ≈ f ( θ 0 ) + ( θ 1 − θ 0 ) f ′ ( θ 0 ) f(\theta_1)≈f(\theta_0)+(\theta_1-\theta_0)f^{'}(\theta_0) f(θ1)f(θ0)+(θ1θ0)f(θ0)进行迭代求解的无约束问题优化方法。
    • 梯度:单变量函数中是给定点的切线的斜率、在多变量函数中是多个斜率组成的向量。
    • 下降:梯度的反方向是函数在给定点下降最快的方向。
    • 公式 θ 1 = θ 0 − α ▽ J ( θ ) \theta^1=\theta^0-\alpha\bigtriangledown J(\theta) θ1=θ0αJ(θ)
    • 下山:在当前位置 θ 0 \theta^0 θ0下山最快的方向 ▽ J ( θ ) \bigtriangledown J(\theta) J(θ)以步长为 α \alpha α的速度下山。
  • 牛顿法:基于二阶泰勒展开式 f ( θ 1 ) ≈ f ( θ 0 ) + ( θ 1 − θ 0 ) f ′ ( θ 0 ) + 1 2 ( θ 1 − θ 0 ) 2 f ′ ′ ( θ 0 ) f(\theta_1)≈f(\theta_0)+(\theta_1-\theta_0)f^{'}(\theta_0)+\frac{1}{2}(\theta_1-\theta_0)^2f^{''}(\theta_0) f(θ1)f(θ0)+(θ1θ0)f(θ0)+21(θ1θ0)2f(θ0)迭代求解的无约束优化方法。
    • 牛顿方向 − H k − 1 ▽ J ( θ ) -H_k^{-1}\bigtriangledown J(\theta) Hk1J(θ)。 其中, H k − 1 H_k^{-1} Hk1表示海森矩阵的逆矩阵、 ▽ J ( θ ) 表 示 梯 度 \bigtriangledown J(\theta)表示梯度 J(θ)
    • 公式 θ 1 = θ 0 − H k − 1 ▽ J ( θ ) \theta^1=\theta^0-H_k^{-1}\bigtriangledown J(\theta) θ1=θ0Hk1J(θ)
    • 下山:同时考虑梯度的变化趋势和梯度的方向。
  • 拟牛顿法:在牛顿法的基础上,通过正定矩阵近似海森矩阵的逆矩阵简化了计算过程。
  • 对比分析
    • 梯度下降法 V S VS VS 最小二乘法
      1. 梯度下降法需要选择步长,而最小二乘法不需要;
      2. 梯度下降法是迭代求解,最小二乘法是计算解析解;
      3. 样本量很大时,最小二乘法求解很慢(需要求一个很大的逆矩阵)。
    • 梯度下降法 V S VS VS 牛顿法/拟牛顿法
      1. 两者都是迭代求解;
      2. 梯度下降法是梯度求解,牛顿法/拟牛顿法是用二阶的海森矩阵的逆矩阵或伪逆矩阵求解;
      3. 牛顿法/拟牛顿法收敛更快,但每次迭代的时间比梯度下降法长。

3. 带约束优化方法

  • 拉格朗日乘子法:
  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

代码大玩家

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值