机器学习中的数学（30/Nov/2020）

wymm95

于 2020-11-30 15:36:29 发布

阅读量1.2k

点赞数 1

文章标签：机器学习算法概率论

本文链接：https://blog.csdn.net/williamwu95/article/details/110389004

版权

机器学习中的数学应用（30/Nov/2020）

1. 均值，中位数和众数

2. 四分位数和箱线图

3. 偏差

4. 条件概率和贝叶斯定理（Bayes’ theorem）

5. 离散分布与连续分布

6. 标准正态分布

一、均值，中位数和众数的处理（Python）

均值：平均数
中位数：排序后的中间数，判断len(list)的奇偶后再决定
众数：频率最多的数，推荐dictionary处理，不唯一。

二、四分位数和箱线图

四分位数是描述集中趋势的测度之一
在这里插入图片描述
N为样本数量
　第一四分位数 (Q1)，又称“较小四分位数”，等于该样本中所有数值由小到大排列后第25%的数字。
　　第二四分位数 (Q2)，又称“中位数”，等于该样本中所有数值由小到大排列后第50%的数字。
　　第三四分位数 (Q3)，又称“较大四分位数”，等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距 (InterQuartile Range,IQR)。

箱型图的分析：
在这里插入图片描述
箱形图是一种可视化不同样本或组之间差异的方法。他们设法提供了许多统计信息，包括中位数，范围和离群值。
步骤1：比较箱形图的中位数
比较每个箱形图的中位数。如果箱形图的中线位于另外一个箱形图的框外，则两组之间可能存在差异
在这里插入图片描述
Source: https://blog.bioturing.com/2018/05/22/how-to-compare-box-plots/
步骤2：比较箱形图的四分位间距和晶须
比较四分位间距（即框长），以检查数据如何分散在每个样本之间。框长越长，数据越分散。越小，数据散布越少。
在这里插入图片描述
接下来，查看总体扩散，如两个晶须末端的极值所示。这显示了分数的范围（分散的另一种类型）。范围越大表示分布越广，即数据越分散。
步骤3：寻找潜在的异常值
查看箱形图时，离群值定义为位于箱形图晶须之外的数据点。
步骤4：寻找偏斜迹象
如果数据看起来不对称，那么每个样本是否显示出相同的不对称性？
在这里插入图片描述
对于标准正态分布的样本，只有极少值为异常值。异常值越多说明尾部越重，自由度越小（即自由变动的量的个数）；
而偏态表示偏离程度，异常值集中在较小值一侧，则分布呈左偏态；异常值集中在较大值一侧，则分布呈右偏态。

三、偏差

离均差（deviation）
在这里插入图片描述
平均偏差（average deviation）

平均绝对偏差（average absolute deviation）

总体方差（population variance）

标准差（standard deviation）
在统计学中，偏差可以用于两个不同的概念，即有偏采样与有偏估计。一个有偏采样是对总样本集非平等采样，而一个有偏估计则是指高估或低估要估计的量。
在这里插入图片描述
总体期望
期望一般用于描述总体事件的一个平均值，而均值则用于描述样本时间的平均值

X 为该事件的属性，P为该事件出现的概率

样本方差(sample variance) 为衡量随机变量或者一组数据时的离散程度的度量。
在这里插入图片描述
总体方差有有限总体和无限总体，有自己的真实参数，这个均值是实实在在的真值，在计算总体方差的时候，除以的是N。
样本方差是总体里随机抽出来的部分，用来估计总体（总体一般很难知道），由样本可以得到很多种类的统计量。
举一个例子，如果一个数据集满足高斯分布（Normal Distribution），那当我们提取样本的时候，数据基本上会集中在中间的部分，而边缘值的数目可能会比较少，所以最后得到的样本方差和样本标准差会比总体要小。
为了修正这个偏差，在计算样本的方差和标准差时，我们将使用 n-1 代替 n，而这样的过程就叫做贝塞尔校正(Bessel’s correction)。这样处理后最直接的结果是，公式中的分母变小，得到的结果将会变大，能够更加准确地通过该样本预测总体的情况。
(Ref. https://en.wikipedia.org/wiki/Bessel%27s_correction)

对于小样本量，贝塞尔的校正将非常严格。如果您的样本量很小，那么无论如何它都不可能很好地估算出总体均值。如果样本量非常大，那么样本统计量将几乎等于总体参数。在那种情况下，根本不需要贝塞尔的校正。

关于贝塞尔校正的无偏估计，参考
https://blog.csdn.net/weixin_30679823/article/details/96264439?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1.control

四、条件概率和贝叶斯定理（Bayes’ theorem）

wymm95

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
机器学习中的数学（30/Nov/2020）

机器学习中的数学（30/Nov/2020）1. 均值，中位数和众数2. 四分位数和箱线图3. 偏差4. 条件概率和贝叶斯定理（Bayes’ theorem）5. 离散分布与连续分布6. 标准正态分布一、均值，中位数和众数的处理（Python）均值：平均数中位数：排序后的中间数，判断len(list)的奇偶后再决定众数：频率最多的数，推荐dictionary处理，不唯一。二、四分位数和箱线图四分位数是描述集中趋势的测度之一N为样本数量　第一四分位数 (Q1)，又称“较小四分位数
复制链接

扫一扫