机器学习——一些常用的数学基础_仿射变换诱导的向量范数-CSDN博客

本文链接：https://blog.csdn.net/xranmail/article/details/100522107

本文深入解析了数学在算法设计中的核心应用，涵盖了范数、特征分解、奇异值分解等线性代数概念，以及贝叶斯法则、最大似然估计、最大后验估计等概率统计方法。同时介绍了仿射变换、傅里叶变换、非线性最小二乘法、卡尔曼滤波等在信号处理和系统控制领域的关键数学工具。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.范数(norm):衡量向量大小,是将向量映射到非负值的函数。形式上 $L^{p}$ 范数定义为： $|| \mathbf{x}||_{p}=(\sum_{i}|x_i|^p )^{\frac{1}{p}}$ , $p\geq 1$ .当p=2时， $L^2$ 范数称为欧几里得范数，经常省略下标2。向量的n范数就是向量元素绝对值的n次方和再开n次方。

2.特征分解(eigendecomposition)：又称谱分解，将矩阵分解成一组特征向量和特征值，是使用最广的矩阵分解之一。表示如下： $\mathbf{A\nu } =\lambda \mathbf{\nu}$ . $\lambda$ 是特征值也称本征值， $\nu$ 是特征向量也称本征矢。这种做法的目的是通过分解矩阵来发现矩阵表示成数组元素时不明显的函数性质。注意只有对可以对角化矩阵即实对称矩阵才可以使用特征分解。特征值 $\lambda$ 这样理解：矩阵A在不改变某些向量“固有”方向的基础上，对向量只进行长度λ倍的变换，因此λ就是矩阵A能将这些向量进行保留“本征”变换的倍数值。而特征向量 $\nu$ 就是矩阵A能够进行这种保留“本征”变换λ倍的那些向量。

3.奇异值分解(Singular Value Decomposition,SVD):特征值分解对矩阵有着较高的要求，它需要被分解的矩阵𝐴为实对称矩阵。矩阵𝐴是一个𝑚×𝑚的实对称矩阵(即 $𝐴=𝐴^𝑇$ $A=A^T$ ),那么它可以分解成𝐴=𝑄Σ𝑄^𝑇，其中𝑄为标准正交阵，即有𝑄𝑄^𝑇=𝐼，Σ为对角矩阵 $\begin{bmatrix} \lambda_1 & \cdots & \cdots \\ \cdots &\lambda_i &\cdots \\ \cdots & \cdots & \lambda_m \end{bmatrix}$ ，且上面的矩阵的维度均为𝑚×𝑚。𝜆𝑖称为特征值，𝑞𝑖是𝑄（特征矩阵）中的列向量，称为特征向量。对于一般性的𝑚×𝑛的矩阵𝐴只能使用奇异值分解了,𝐴=𝑈Σ𝑉^𝑇。其中𝑈和𝑉均为单位正交阵，即有𝑈𝑈^𝑇=𝐼和𝑉𝑉^𝑇=𝐼，𝑈称为左奇异矩阵，𝑉称为右奇异矩阵，Σ仅在主对角线上有值，我们称它为奇异值，其它元素均为0。上面矩阵的维度分别为𝑈∈𝑅𝑚×𝑚, Σ∈𝑅𝑚×𝑛, 𝑉∈𝑅𝑛×𝑛.一般地Σ有如下形式 $\begin{bmatrix} \sigma_1 &0 & 0 & 0 \\ 0 &\ddots & 0 &0 \\ 0 & 0&\sigma_j &0 \end{bmatrix}_{m\times n}$ ,只有其主对角线有奇异值，其余均为0。

4.贝叶斯法则(Bayesian law)：后验概率 = (似然度 * 先验概率)/标准化常量。公式定义为： $P(A|B)=\frac{P(B|A)P(A)}{P(B)}$ .P(A)表示A的先验概率（称为先验是因为不考虑B),P(B)表示B的先验概率，P(B|A)表示已知A发生后B的概率，称作B的后验。 $P_B=\sum_A P(B|A)P(A)$ 。

5.最大似然估计(MLE)：明确地使用概率模型，其目标是寻找能够以较高概率产生观察数据的系统发生树。“模型已定，参数未知”的情况下使用，MLE就是用来估计模型的参数，目标是找出一组参数，使得模型产生出观测数据的概率最大， $\underset{\mu}{argmax} P(\mathbf{x};\mu)$ ,其中 $P(\chi;\mu)$ 就是似然函数，表示在参数 $\mu$ 下出现观测数据的概率。

6.最大后验估计(MAP):适用于假设参数 $\mu$ 有一个先验概率的情况下。MAP优化的是一个后验概率，即给定了观测值后使概率最大： $\hat{\mu}_{MAP}=\underset{\mu}{argmax} p(\mu|X)$ 。根据贝叶斯公式展开： $\hat{\mu}_{MAP}=\underset{\mu}{argmax} p(\mu|X)=\underset{\mu}{argmax} \frac{p(X|\mu)p(\mu)}{p(X)}$ $=\underset{\mu}{argmax}p(X|\mu)p(\mu)$ ，其中第一项p(X|u)就是似然函数，P(u)就是参数的先验知识。

7.仿射变换（Affine）：是指在几何中一个向量空间进行一次线性变换并接上一个平移，变换为另一个向量空间,神经网络的正向传播中进行的矩阵的乘积运算在几何学领域被称为“仿射变换”,np.dot(X, W) + B,因此，将进行仿射变换的处理实现为“Affine层”,也称全连接层。仿射（Affine）的意思是前面一层中的每一个神经元都连接到当前层中的每一个神经元。在许多方面，这是神经网络的'标准'层。仿射层通常被加在卷积神经网络或循环神经网络做出最终预测前的输出的顶层。仿射层的一般形式为 y = f(Wx + b)，其中 x 是层输入，w 是参数，b 是一个偏差矢量，f 是一个非线性激活函数。

8.傅里叶变换：能将满足一定条件的某个函数表示成三角函数（正弦和/或余弦函数）或者它们的积分的线性组合。傅立叶变换的公式： $F(w)= \mathcal{F}[f(t)]=\int ^\infty _{-\infty }f(t)e^{-iwt}dt$ ; 傅立叶逆变换: $f(t)= \mathcal{F}^{-1}[F(w)]=\frac{1}{2\pi}\int ^\infty _{-\infty }F(w)e^{iwt}dw$ 。

9.非线性最小二乘：对于不便直接求解(求导)的最小二乘，使用迭代方式，从一个初始值出发，不断更新当前的优化变量使目标函数下降，具体步骤如下:a.给定某个初始值，b.对于第k次迭代，寻找一个增量 $\triangle x_k,$ 使得 $\left \| f(x_k+\bigtriangleup x_k ) \right \|^2_2$ 达到极小值，c.若 $\triangle x_k$ 足够小，则停止。否则令 $x_{k+1}=x_k+\triangle x_k$ ,返回b.
一阶二阶梯度法求非线性最小二乘的解。
求增量 $\left \| f(x_k+\bigtriangleup x_k ) \right \|^2_2$ 的最直观方式是将它在x附近进行泰勒展开：
$\left \| f(x_k+\bigtriangleup x_k ) \right \|^2_2\approx \left \| f(x_k) \right \|^2_2+J(x)\bigtriangleup x+\frac{1}{2}\bigtriangleup x^TH\bigtriangleup x$ .其中J是 $\left \| f(x) \right \|^2_2$ 关于x的导数（Jacobi矩阵，是一阶偏导数以一定方式排列成的矩阵，其行列式称为Jacobi行列式。Jacobi矩阵的重要性在于它体现了一个可微方程与给出点的最优线性逼近。因此，雅可比矩阵类似于多元函数的导数),H是二阶导（Hessian矩阵）。保留展开的一阶或二阶项对应的求解方法即为一阶梯度或二阶梯度法。保留一阶梯度，增量解为 $\Delta x^*=-J^T(x)$ .保留二阶梯度增量解为 $H\Delta x=-J^T$ .接下来保使用Gauss-Newton、Levenberg-Marquadt法来求解，这些求解的函数方法在g2o库中可以直接调用，具体细节略。

10.卡尔曼滤波(KF):是一种利用线性系统状态方程，通过系统输入输出观测数据，对系统状态进行最优估计的算法。由于观测数据中包括系统中的噪声和干扰的影响，所以最优估计也可看作是滤波过程。算法的核心思想是,根据当前的仪器"测量值" 和上一刻的 "预测量" 和 "误差",计算得到当前的最优量,再预测下一刻的量,即预测+测量反馈,前者通过一个变化的权值相联系，使最后的状态后验估计无限逼近系统的状态真值，这个权值就是卡尔曼增益。比较突出的是观点是把误差纳入计算, 而且分为预测误差和测量误差两种.通称为噪声。KF利用目标的动态信息，设法去掉噪声的影响，得到一个关于目标位置的好的估计。KF的本质是参数化的Bayesian模型,通过对下一时刻系统的初步状态估计(即状态的先验估计)及测量得出的反馈相结合,得到该时刻较为准确的状态估计(即状态的后验估计),它由两部分组成：线性系统状诚预测方程和线性系统观测方程，分别如下。
$x_k=Ax_{k-1}+Bu_{k-1}+w_{k-1};$ $z_k=Hx_k+v_k$ ;其中x为状态真值,u是控制输入;z观测真值，w,v是高斯噪声。