机器学习中的数学基础_机器学习数学基础-CSDN博客

本文链接：https://blog.csdn.net/weixin_48880548/article/details/128815587

DAY1

费马定理

若函数f(x)在(a,b)内一点x0取得极值,且f(x)在x0可微,则 f ( x0 ) = 0

泰勒展开

是一个用函数在某点的信息描述其附近取值的公式。如果函数满足一定的条件，泰勒公式可以用函数在某一点的各阶导数值做系数构建一个多项式来近似表达这个函数。

泰勒公式的几何意义是利用多项式函数来逼近原函数，由于多项式函数可以任意次求导，易于计算，且便于求解极值或者判断函数的性质，因此可以通过泰勒公式获取函数的信息。

泰勒公式的余项有两类：一类是定性的皮亚诺余项，另一类是定量的拉格朗日余项。这两类余项本质相同，但是作用不同。一般来说，当不需要定量讨论余项时，可用皮亚诺余项（如求未定式极限及估计无穷小阶数等问题）；当需要定量讨论余项时，要用拉格朗日余项（如利用泰勒公式近似计算函数值）

凸函数

所谓凸函数,就是函数在两点间图像一定在函数的弦下方。

DAY2

偏导数

一个多变量的函数的偏导数，就是它关于其中一个变量的导数而保持其他变量恒定（相对于全导数，在其中所有变量都允许变化）

方向导数

方向导数是在函数定义域的内点对某一方向求导得到的导数，一般为二元函数和三元函数的方向导数。方向导数可分为沿直线方向和沿曲线方向的方向导数。

梯度

梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。

Hessian矩阵

是一个多元函数的二阶偏导数构成的方阵，描述了函数的局部曲率。利用黑塞矩阵可判定多元函数的极值问题。在工程实际问题的优化设计中，所列的目标函数往往很复杂，为了使问题简化，常常将目标函数在某点邻域展开成泰勒多项式来逼近原函数，此时函数在某点泰勒展开式的矩阵形式中会涉及到黑塞矩阵。

拉格朗日乘数法

在数学最优问题中，拉格朗日乘数法（以数学家约瑟夫·路易斯·拉格朗日命名）是一种寻找变量受一个或多个条件所限制的多元函数的极值的方法。这种方法将一个有n 个变量与k 个约束条件的最优化问题转换为一个有n + k个变量的方程组的极值问题，其变量不受任何约束。这种方法引入了一种新的标量未知数，即拉格朗日乘数：约束方程的梯度（gradient）的线性组合里每个向量的系数。此方法的证明牵涉到偏微分，全微分或链法，从而找到能让设出的隐函数的微分为零的未知数的值。

DAY3

向量矩阵张量

张量概念是矢量概念的推广，矢量是一阶张量。张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数。

矩阵的逆与伪逆

伪逆矩阵是逆矩阵的广义形式。由于奇异矩阵或非方阵的矩阵不存在逆矩阵，但在matlab里可以用函数pinv(A)求其伪逆矩阵。

函数返回一个与A的转置矩阵A' 同型的矩阵X，并且满足：AXA=A,XAX=X.此时，称矩阵X为矩阵A的伪逆，也称为广义逆矩阵。

二次型与正定性

二次型（quadratic form）：n个变量的二次多项式称为二次型，即在一个多项式中，未知数的个数为任意多个，但每一项的次数都为2的多项式。

若对任何非零向量x，实二次型f(x)如果对任何x≠0都有f(x)>0，则称f为正定二次型，并称矩阵A是正定的，记之A>0

判定二次型(或对称矩阵)为正定的方法有如下两种

1、行列式法

对于给定的二次型，写出它的矩阵，根据对称矩阵的所有顺序主子式是否全大于零来判定二次型 (或对称矩阵)的正定性。

2、正惯性指数法

对于给定的二次型，先将化为标准形，然后根据标准形中平方项系数为正的个数是否等于来判定二次型的正定性。

通过正交变换，将二次型化为标准形后，标准形中平方项的系数就是二次型矩阵的特征值。因此，可先求二次型矩阵的特征值，然后根据大于零的特征值个数是否等于来判定二次型的正定性。

矩阵分解

矩阵分解 (decomposition, factorization)是将矩阵拆解为数个矩阵的乘积，可分为三角分解、满秩分解、QR分解、Jordan分解和SVD（奇异值）分解等，常见的有三种：1)三角分解法 (Triangular Factorization)，2)QR 分解法 (QR Factorization)，3)奇异值分解法 (Singular Value Decomposition)。

DAY4

贝叶斯定理

所谓贝叶斯公式，是指当分析样本大到接近总体数时，样本中事件发生的概率将接近于总体中事件发生的概率。

数学期望

(mathematic expectation [4] )（或均值，亦简称期望）是试验中每次可能结果的概率乘以其结果的总和，是最基本的数学特征之一。它反映随机变量平均取值的大小。期望值是该变量输出值的平均数。期望值并不一定包含于变量的输出值集合里。

大数定律

在随机事件的大量重复出现中，往往呈现几乎必然的规律，这个规律就是大数定律。通俗地说，这个定理就是，在试验不变的条件下，重复试验多次，随机事件的频率近似于它的概率。偶然中包含着某种必然。大数定律表明，随着重复次数接近无穷大，数值的算术平均值几乎肯定地收敛于期望值。

特征函数

是指在概率论中，任何随机变量完全定义了它的概率分布的函数。

中心极限定理

中心极限定理，是指概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理。这组定理是数理统计学和误差分析的理论基础，指出了大量随机变量近似服从正态分布的条件。它是概率论中最重要的一类定理，有广泛的实际应用背景。在自然界与生产中，一些现象受到许多相互独立的随机因素的影响，如果每个因素所产生的影响都很微小时，总的影响可以看作是服从正态分布的。

极大似然估计

（Maximum Likelihood Estimate，MLE）也称为最大概似估计或最大似然估计，是求估计的另一种方法，极大似然原理的直观想法是，一个随机试验如有若干个可能的结果A，B，C，... ，若在一次试验中，结果A出现了，那么可以认为实验条件对A的出现有利，也即出现的概率P(A)较大。它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若干次试验，观察其结果，利用结果推出参数的大概值。极大似然估计是建立在这样的思想上：已知某个参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。

最大后验估计

在贝叶斯统计学中，最大后验（Maximum A Posteriori，MAP）估计可以利用经验数据获得对未观测量的点态估计。它与Fisher的最大似然估计（Maximum Likelihood，ML）方法相近，不同的是它扩充了优化的目标函数，其中融合了预估计量的先验分布信息，所以最大后验估计可以看作是正则化（regularized）的最大似然估计。

蒙特卡罗方法

蒙特卡罗法也称统计模拟法、统计试验法。是把概率现象作为研究对象的数值模拟方法。是按抽样调查法求取统计值来推定未知特性量的计算方法。蒙特卡罗是摩纳哥的著名赌城，该法为表明其随机抽样的本质而命名。故适用于对离散系统进行计算仿真试验。在计算仿真中，通过构造一个和系统性能相近似的概率模型，并在数字计算机上进行随机试验，可以模拟系统的随机特性。

蒙特卡罗法的基本思想是：为了求解问题，首先建立一个概率模型或随机过程，使它的参数或数字特征等于问题的解：然后通过对模型或过程的观察或抽样试验来计算这些参数或数字特征，最后给出所求解的近似值。

Bootstrap方法

自助抽样法，是一种从给定训练集中有放回的均匀抽样，也就是说，每当选中一个样本，它等可能地被再次选中并被再次添加到训练集中。当样本来自总体，能以正态分布来描述，其抽样分布(Sampling Distribution)为正态分布(The Normal Distribution)；但当样本来自的总体无法以正态分布来描述，则以渐进分析法、自助法等来分析。采用随机可置换抽样(random sampling with replacement)。对于小数据集，自助法效果很好。

EM算法

最大期望算法，是一类通过迭代进行极大似然估计（Maximum Likelihood Estimation, MLE）的优化算法 [2] ，通常作为牛顿迭代法（Newton-Raphson method）的替代用于对包含隐变量（latent variable）或缺失数据（incomplete-data）的概率模型进行参数估计，EM算法的标准计算框架由E步（Expectation-step）和M步（Maximization step）交替组成，算法的收敛性可以确保迭代至少逼近局部极大值。

DAY5

优化问题

最速下降法

共轭梯度法

最速下降法和梯度下降法的区别？

最速下降法与梯度下降法基本上是相同的,就是选择该点梯度的反向方向进行搜索。梯度下降法中并没有规定步长一定是多少,往往开始人为规定一个步长,然后根据实际情况逐渐缩小步长。而最速下降法的步长则是在求出梯度方向后,把步长变量带入式中,通过求取函数f( )的最小值以获取在该点步长的最佳值。

牛顿法

拟牛顿法

牛顿法（Newton method）和拟牛顿法（quasi Newton method）是求解无约束最优化问题的常用方法，有收敛速度快的优点。牛顿法是迭代算法，每一步都需求解目标函数的海塞矩阵（Hessian Matrix），计算比较复杂。拟牛顿法通过正定矩阵近似海塞矩阵的逆矩阵或海塞矩阵，简化了这一计算过程。

约束非线性优化

KKT条件