人工智能数学基础——数理统计

最新推荐文章于 2025-05-25 09:16:32 发布

原创最新推荐文章于 2025-05-25 09:16:32 发布 · 3.5k 阅读

20 ·

CC 4.0 BY-SA版权

人工智能基础专栏收录该内容

5 篇文章

订阅专栏

基础的统计理论有助于对机器学习的算法和数据挖掘的结果做出解释，只有做出合理的解读，数据的价值才能够体现。数理统计（mathematical statistics）根据观察或实验得到的数据来研究随机现象，并对研究对象的客观规律做出合理的估计和判断。

数理统计以概率论为理论基础，但两者之间存在方法上的本质区别。概率论作用的前提是随机变量的分布已知，根据已知的分布来分析随机变量的特征与规律；数理统计的研究对象则是未知分布的随机变量，研究方法是对随机变量进行独立重复的观察，根据得到的观察结果对原始分布做出推断。

在数理统计中，可用的资源是有限的数据集合，这个有限数据集被称为样本（sample）。相应地，观察对象所有的可能取值被称为总体（population）。数理统计的任务就是根据样本推断总体的数字特征。样本通常由对总体进行多次独立的重复观测而得到，这保证了不同的样本值之间相互独立，并且都与总体具有相同的分布。

在统计推断中，应用的往往不是样本本身，而是被称为统计量的样本的函数。统计量本身是一个随机变量，是用来进行统计推断的工具。样本均值和样本方差是两个最重要的统计量：

样本均值： $X^{-}=\frac{1}{n}\sum_{i=1}^NX_i$
样本方差： $S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-X^-)^2$

统计推断的基本问题可以分为两大类：参数估计（estimation theory）和假设检验（hypothesis test）。

参数估计

参数估计是通过随机抽取的样本来估计总体分布的方法，又可以进一步划分为点估计（point estimation）和区间估计（interval estimation）。在已知总体分布函数形式，但未知其一个或者多个参数时，借助于总体的一个样本来估计未知参数的取值就是参数的点估计。点估计的核心在于构造合适的统计量 $θ$ ，并用这个统计量的观察值作为未知参数 $θ$ 的近似值。点估计的具体方法包括矩估计法（method of moments）和最大似然估计法（maximum likelihood estimation）。

矩表示的是随机变量的分布特征， $k$ 阶矩的定义为随机变量的 $k$ 次方的均值，即 $E(X^k)$ 。矩估计法的思想在于用样本的 $k$ 阶矩估计总体的 $k$ 阶矩，其理论依据在于样本矩的函数几乎处处收敛于总体矩的相应函数，这意味着当样本的容量足够大时，几乎每次都可以根据样本参数得到相应总体参数的近似值。

相对于基于大数定律的矩估计法，最大似然估计法源于频率学派看待概率的方式。

在最大似然估计中，似然函数被定义为样本观测值出现的概率，确定未知参数的准则是让似然函数的取值最大化，也就是微积分中求解函数最大值的问题。由于不同的样本值之间相互独立，因而似然函数可以写成若干概率质量函数 / 概率密度函数相乘的形式，并进一步转化为对数方程求解。

矩估计法和最大似然估计法代表了两种推断总体参数的思路，但对于同一个参数，用不同的估计方法求出的估计量很可能存在差异，这就引出了如何对估计量进行评价的问题。在实际应用中，估计量的评价通常要考虑以下三个基本标准。

无偏性：估计量的数学期望等于未知参数的真实值；
有效性：无偏估计量的方差尽可能小；
一致性：当样本容量趋近于无穷时，估计量依概率收敛于未知参数的真实值。

以上三个要求是对点估计量的整体判定标准。无偏性意味着给定样本值时，根据估计量得到的估计值可能比真实值更大，也可能更小。但如果保持估计量的构造不变，而是进行多次重新抽样，每次都用新的样本计算估计值，那么这些估计值与未知参数真实值的偏差在平均意义上等于 0，这意味着不存在系统误差。

虽然估计值与真实值之间的偏差不可避免，但个体意义上的偏差越小意味着估计的性能越精确，有效性度量的正是估计量和真实值之间的偏离程度。而偏离程度不仅仅取决于估计量的构造方式，还取决于样本容量的大小，一致性考虑的就是样本容量的影响。一致性表示的是随着样本容量的增大，估计量的值将稳定在未知参数的真实值上

对估计量的判别标准涉及了估计误差的影响，这是和估计值同样重要的参量。在估计未知参数 θ 的过程中，除了求出估计量，还需要估计出一个区间，并且确定这个区间包含 θ 真实值的可信程度。在数理统计中，这个区间被称为置信区间（confidence interval），这种估计方式则被称为区间估计。

置信区间可以理解为：对总体反复抽样多次，每次得到容量相同的样本，则根据每一组样本值都可以确定出一个置信区间 $(θ,θ¯)$ ，其上界和下界是样本的两个统计量，分别代表了置信上限和置信下限。

每个置信区间都存在两种可能性：包含 $θ$ 的真实值或不包含 $θ$ 的真实值。如果对所有置信区间中包含 $θ$ 真实值的比率进行统计，得到的比值就是置信水平。因此，区间估计相当于在点估计的基础上进一步提供了取值范围和误差界限，分别对应着置信区间和置信水平。

假设检验

参数估计的对象是总体的某个参数，假设检验的对象则是关于总体的某个论断，即关于总体的假设。假设检验中的假设包含原假设 $H_0$ 和备择假设 $H_1$ ；检验的过程就是根据样本在 $H_0$ 和 $H_1$ 之间选择一个接受的过程。

理想的情况是假设 $H_0(H_1)$ 为真并且这个假设被接受。但由于检验是基于样本做出的，错误的决策终归会出现，其形式可以分为两种：第 I 类错误对应假设 $H_0$ 为真但是被拒绝的情况，也就是“弃真”类型的错误；第 II 类错误对应假设 $H_0$ 不真但是被接受的情况，也就是“取伪”类型的错误。