机器学习中的数学应用(30/Nov/2020)
1. 均值,中位数和众数
2. 四分位数和箱线图
3. 偏差
4. 条件概率和贝叶斯定理(Bayes’ theorem)
5. 离散分布与连续分布
6. 标准正态分布
一、均值,中位数和众数的处理(Python)
均值:平均数
中位数:排序后的中间数,判断len(list)的奇偶后再决定
众数:频率最多的数,推荐dictionary处理,不唯一。
二、四分位数和箱线图
四分位数是描述集中趋势的测度之一
N为样本数量
第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。
第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距 (InterQuartile Range,IQR)。
箱型图的分析:
箱形图是一种可视化不同样本或组之间差异的方法。他们设法提供了许多统计信息,包括中位数,范围和离群值。
步骤1:比较箱形图的中位数
比较每个箱形图的中位数。如果箱形图的中线位于另外一个箱形图的框外,则两组之间可能存在差异
Source: https://blog.bioturing.com/2018/05/22/how-to-compare-box-plots/
步骤2:比较箱形图的四分位间距和晶须
比较四分位间距(即框长),以检查数据如何分散在每个样本之间。框长越长,数据越分散。越小,数据散布越少。
接下来,查看总体扩散,如两个晶须末端的极值所示。这显示了分数的范围(分散的另一种类型)。范围越大表示分布越广,即数据越分散。
步骤3:寻找潜在的异常值
查看箱形图时,离群值定义为位于箱形图晶须之外的数据点。
步骤4:寻找偏斜迹象
如果数据看起来不对称,那么每个样本是否显示出相同的不对称性?
对于标准正态分布的样本,只有极少值为异常值。异常值越多说明尾部越重,自由度越小(即自由变动的量的个数);
而偏态表示偏离程度,异常值集中在较小值一侧,则分布呈左偏态;异常值集中在较大值一侧,则分布呈右偏态。
三、偏差
离均差 (deviation)
平均偏差(average deviation)
平均绝对偏差(average absolute deviation)
总体方差(population variance)
标准差(standard deviation)
在统计学中,偏差可以用于两个不同的概念,即有偏采样与有偏估计。一个有偏采样是对总样本集非平等采样,而一个有偏估计则是指高估或低估要估计的量。
总体期望
期望一般用于描述总体事件的一个平均值,而均值则用于描述样本时间的平均值
X 为该事件的属性,P为该事件出现的概率
样本方差(sample variance) 为衡量随机变量或者一组数据时的离散程度的度量。
总体方差有有限总体和无限总体,有自己的真实参数,这个均值是实实在在的真值,在计算总体方差的时候,除以的是N。
样本方差是总体里随机抽出来的部分,用来估计总体(总体一般很难知道),由样本可以得到很多种类的统计量。
举一个例子,如果一个数据集满足高斯分布(Normal Distribution),那当我们提取样本的时候,数据基本上会集中在中间的部分,而边缘值的数目可能会比较少,所以最后得到的样本方差和样本标准差会比总体要小。
为了修正这个偏差,在计算样本的方差和标准差时,我们将使用 n-1 代替 n,而这样的过程就叫做贝塞尔校正(Bessel’s correction)。这样处理后最直接的结果是,公式中的分母变小,得到的结果将会变大,能够更加准确地通过该样本预测总体的情况。
(Ref. https://en.wikipedia.org/wiki/Bessel%27s_correction)
对于小样本量,贝塞尔的校正将非常严格。如果您的样本量很小,那么无论如何它都不可能很好地估算出总体均值。如果样本量非常大,那么样本统计量将几乎等于总体参数。在那种情况下,根本不需要贝塞尔的校正。
关于贝塞尔校正的无偏估计,参考
https://blog.csdn.net/weixin_30679823/article/details/96264439?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1.control