数据挖掘常用名词解析（一）

最新推荐文章于 2024-05-23 11:57:15 发布

巧妇难为无米之炊

最新推荐文章于 2024-05-23 11:57:15 发布

阅读量1k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_44232687/article/details/109589225

版权

机器学习专栏收录该内容

5 篇文章 2 订阅

订阅专栏

本文，处于对一次测试地总结，深感自己对自己专业的名词，特别是一些不常见的名词，感觉比较吃力，为了方便自己学习，也为了给大家提供便利，遂写本文。进步不再于一日千里，而在于坚持不懈，不断总结

——杰

正态分布图

正态分布（Normal distribution），也称“常态分布”，又名高斯分布（Gaussian distribution），是一个非常重要的概率分布。正态曲线呈钟型，两头低，中间高，左右对称因其曲线呈钟形，因此人们又经常称之为钟形曲线。

定理：由于一般的正态总体其图像不一定关于y轴对称，对于任一正态总体，其取值小于x的概率。只要会用它求正态总体在某个特定区间的概率即可。

记作：

当时，正态分布就成为标准正态分布，其密度概率就是

最小二乘的详述

正态分布详述

图像如下：

盒图

盒图(boxplot)：摆弄数据离散度的一种图形。它对于显示数据的离散的分布情况效果不错。在软件工程中，Nassi和Shneiderman 提出了一种符合结构化程序设计原则的图形描述工具?叫做盒图?也叫做N-S图。

通过盒图，在分析数据的时候，盒图能够有效地帮助我们识别数据的特征：

1、直观地识别数据集中的异常值(查看离群点)。

2、判断数据集的数据离散程度和偏向(观察盒子的长度，上下隔间的形状，以及胡须的长度)。

盒图详述

马氏距离

马氏距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的，表示点与一个分布之间的距离。它是一种有效的计算两个未知样本集的相似度的方法。

马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为Σ的随机变量之间的差异程度。

如果协方差矩阵为单位矩阵，那么马氏距离就简化为欧氏距离，如果协方差矩阵为对角阵，则其也可称为正规化的欧氏距离。

马氏距离详述

散点图

散点图（scatter diagram）在回归分析中是指数据点在直角坐标系平面上的分布图。通常用于比较跨类别的聚合数据。

散点图中包含的数据越多，比较的效果就越好。

散点图将序列显示为一组点。值由点在图表中的位置表示。类别由图表中的不同标记表示。散点图通常用于比较跨类别的聚合数据。

类型有:散点图矩阵和三维散点图

散点图详述

逻辑回归与多元回归分析的不同

逻辑回归的模型是一个非线性模型，sigmoid函数，又称逻辑回归函数。但是它本质上又是一个线性回归模型，因为除去sigmoid映射函数关系，其他的步骤，算法都是线性回归的。可以说，逻辑回归，都是以线性回归为理论支持的。

另外它的推导含义：仍然与线性回归的最大似然估计推导相同，最大似然函数连续积（这里的分布，可以使伯努利分布，或泊松分布等其他分布形式），求导，得损失函数。

各种回归的详述

两种回归的不同

bootstrap数据的含义

Bootstrap这个词语其实指的是统计学中的一种算法，而我们一般又将这种算法解释成是自展法，这个方法主要指的就是用抽取的小样本的数值来预估需要统计的总样本数量，目前这个统计方法在生态学研究中得到较为广泛的使用，所以事实上，bootstrap数据可以解释成指的就是有放回地从总样本数量N中中抽样的n个样本。

基于bootstrap，有以下常用的机器学习方法

boosting
bagging
random forest（RF, 随机森林）
K-fold交叉验证

交叉验证(Cross-validation)主要用于建模应用中，例如PCR、PLS回归建模中。

交叉验证（Cross Validation），有的时候也称作循环估计（Rotation Estimation），是一种统计学上将数据样本切割成较小子集的实用方法，该理论是由Seymour Geisser提出的。交叉验证的基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set),首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标。

Holdout 验证

常识来说，Holdout 验证并非一种交叉验证，因为数据并没有交叉使用。随机从最初的样本中选出部分，形成交叉验证数据，而剩余的就当做训练数据。一般来说，少于原本样本三分之一的数据被选做验证数据。

K-fold cross-validation

K折交叉验证，初始采样分割成K个子样本，一个单独的子样本被保留作为验证模型的数据，其他K-1个样本用来训练。交叉验证重复K次，每个子样本验证一次，平均K次的结果或者使用其它结合方式，最终得到一个单一估测。这个方法的优势在于，同时重复运用随机产生的子样本进行训练和验证，每次的结果验证一次，10折交叉验证是最常用的[1]。

留一验证

正如名称所建议，留一验证（LOOCV）意指只使用原本样本中的一项来当做验证资料，而剩余的则留下来当做训练资料。这个步骤一直持续到每个样本都被当做一次验证资料。事实上，这等同于和K-fold 交叉验证是一样的，其中K为原本样本个数。在某些情况下是存在有效率的演算法，如使用kernel regression 和Tikhonov regularization。

交叉验证详述

第二天

正则化

L1范数：向量各元素的绝对值之和。L1使得导致稀疏解，（特征选择，可解释性）

L2范数：欧几里得距离，L2范数作为正则化项，可以防止模型为了迎合训练集而过于复杂造成过拟合的情况，从而提高模型的泛化能力。

如上图所示，蓝色的圆圈表示问题可能的解范围，橘色的表示正则项可能的解范围。而整个目标函数（原问题+正则项）有解当且仅当两个解范围相切。从上图可以很容易地看出，由于L2范数解范围是圆，所以相切的点有很大可能不在坐标轴上，而由于L1范数是菱形（顶点是凸出来的），其相切的点更可能在坐标轴上，而坐标轴上的点有一个特点，其只有一个坐标分量不为零，其他坐标分量为零，即是稀疏的。所以有如下结论，L1范数可以导致稀疏解，L2范数导致稠密解。