机器学习的数学基础——统计学

最新推荐文章于 2022-11-26 10:05:41 发布

林学森

最新推荐文章于 2022-11-26 10:05:41 发布

阅读量444

点赞数

分类专栏：人工智能与机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xuesen_lin/article/details/116034615

版权

人工智能与机器学习专栏收录该内容

29 篇文章 15 订阅

订阅专栏

以下文章摘录自

《机器学习观止——核心原理与实践》

京东： https://item.jd.com/13166960.html

当当：http://product.dangdang.com/29218274.html

1.1 统计学

1.1.1 数据的标准化和归一化

在数据统计领域，我们通常需要对原始数据做标准化和归一化处理。

数据的标准化(Standardization)通俗地讲，就是把原始数据按照一定的比例进行缩放，使它们落入一个更小的特定区间范围的过程。标准化有多种实现方法，其中常用的是z-score，其表达式如下所示：

其中μ代表的是数据样本的均值，σ则是样本的标准差。采用z-score处理后的数据均值为0且标准差为1。

而数据的归一化(Normalization)简单而言是把原始数据按照一定的处理规则，使它们落入(0, 1)之间的小数。归一化的表达式如下所示：

因而从缩小数据的角度来看，我们可以认为归一化和标准化的目标是非常相似的。

归一化的核心作用之一在于消除不同量纲对于最终结果的影响，或者说让不同量纲的变量具备可比性。举个例子来说，假设有两个变量x1和x2，其中x1的范围是(20000, 200000)，而x2的范围则是(0, 1)。这种情况下如果我们把这两个变量绘制出来，会发现基本上就是一条直线。换句话说，x2的变化范围在x1的“世界”里显得“微不足道”，因而在参与机器学习的过程中很可能会被毫不留情地“忽略”掉了。归一化就可以解决这类问题，它使得各种变量可以站在同一条起跑线上，从而保证结果的正确性。

与归一化类似，标准化也同样具备去除量纲的作用。不过标准化的另一个特点在于不会改变原始数据的分布，这是它和归一化的一个显著区别。比如前述所举两个变量的例子，经过归一化后它们的图形就不是类似一条直线了，而标准化则不会导致这种转变。使用者应该根据自己的实际诉求来选择更适合自己的实现方式。

1.1.2 标准差(standard deviation)

标准差又称为均方差，是反映数据离散程度的一种常用量化形式。它的计算公式并不复杂，参考如下：

其中SD是standard deviation的缩写。简单来讲，标准差就是各个数据减去它们平均值的平方和，除以数据个数后再开根号得到的。

举个例子来说，我们有以下两组数据：

数据A: {0, 5, 7, 9, 14}

数据B: {5, 6, 7, 8, 9}

虽然它们的平均值都是7，但是后者从数据分布上来看“更为集中”，因而根据SD的计算公式可知它的标准差更小。

1.1.3 方差(variance)和偏差(bias)

偏差和方差是机器学习过程中两个常用指标，我们在本小节对它们做一个统一的讲解。

l 偏差(bias)

简单而言，偏差就是预测值与真实值之间的差距

l 方差(variance)

和偏差不同，方差是指预测值的分散程度

如果我们把这两个指标形象地描绘出来，就如下面所示：

图 ‑ Bias和Variance示意图

假设靶心是真实值，实心圆点是预测值，那么上面的4张子图就代表了高/低情况下的bias和variance指标的实际表现。例如左上角各个实心圆点都围绕在靶心周围，因而偏差较小;但同时各个实心圆点又相对分散，因而方差较大。

1.1.4 协方差 (Covariance) 和协方差矩阵

前面小节所述的方差可以说是协方差的一种特例——后者可以用于衡量两个变量之间的误差，而方差则只有一个变量。通俗地讲，协方差就是两个变量在变化过程中它们的同步情况——即是属于同向变化还是反向变化？

l 假如变量A变大，同时变量B变小，就说明它们是反向变化(负相关)的，此时协方差的值为负数

l 与上述情况相反，如果变量A变大的同时变量B也变大，说明它们是同向变化(正相关)的，此时协方差的值为正数

协方差的标准公式如下所示：

也就是对于X和Y这两个变量，首先求得每一时刻的X值与其均值之差，以及Y值与其均值之差的乘积和(共n个时刻)，然后再取平均值。

下面这个范例展示的是两个变量为正相关的情况。可以看到在同一时期，它们之间的变化方向是完全一致的：

图 ‑ 协方差为正相关时的情况

了解了协方差后，它的矩阵形式也就不难理解了。因为协方差只是针对两个变量的，那么当我们面对大于二维的问题时该怎么办呢？此时自然而然地就想到矩阵或许可以给出有效的答案，即：

譬如针对三维数据集的例子，它的协方差矩阵表达式为：

协方差是后续机器学习数据降维理论(如PCA)相关章节的基础，因而建议大家可以结合起来阅读。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习的数学基础——统计学

1.1统计学1.1.1数据的标准化和归一化在数据统计领域，我们通常需要对原始数据做标准化和归一化处理。数据的标准化(Standardization)通俗地讲，就是把原始数据按照一定的比例进行缩放，使它们落入一个更小的特定区间范围的过程。标准化有多种实现方法，其中常用的是z-score，其表达式如下所示：其中μ代表的是数据样本的均值，σ则是样本的标准差。采用z-score处理后的数据均值为0且标准差为1。而数据的归一化(Normalization)简单而言是把原始数据按照一...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。