数据挖掘常用名词解析(一)

本文,处于对一次测试地总结,深感自己对自己专业的名词,特别是一些不常见的名词,感觉比较吃力,为了方便自己学习,也为了给大家提供便利,遂写本文。进步不再于一日千里,而在于坚持不懈,不断总结

                                                                                                                                                                                                                                                                                                     ——杰


目录

第一天

盒图

马氏距离

散点图

逻辑回归与多元回归分析的不同

bootstrap数据的含义

K-fold交叉验证

  • 正态分布图

正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),是一个非常重要的概率分布。正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。

定理:由于一般的正态总体其图像不一定关于y轴对称,对于任一正态总体,其取值小于x的概率。只要会用它求正态总体在某个特定区间的概率即可。

记作:

时,正态分布就成为标准正态分布,其密度概率就是

            

最小二乘的详述

正态分布详述

图像如下:

    

  • 盒图

盒图(boxplot):摆弄数据离散度的一种图形。它对于显示数据的 离散的 分布情况效果不错。在软件工程中,Nassi和Shneiderman 提出了一种符合结构化程序设计原则的图形描述工具?叫做盒图?也叫做N-S图

通过盒图,在分析数据的时候,盒图能够有效地帮助我们识别数据的特征:

1、直观地识别数据集中的异常值(查看离群点)。

2、判断数据集的数据离散程度和偏向(观察盒子的长度,上下隔间的形状,以及胡须的长度)。

盒图详述

  • 马氏距离

马氏距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示点与一个分布之间的距离。它是一种有效的计算两个未知样本集的相似度的方法。

马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为Σ的随机变量之间的差异程度。

如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。

马氏距离详述

  • 散点图

散点图(scatter diagram)在回归分析中是指数据点在直角坐标系平面上的分布图。通常用于比较跨类别的聚合数据

散点图中包含的数据越多,比较的效果就越好。

散点图将序列显示为一组点。值由点在图表中的位置表示。类别由图表中的不同标记表示。散点图通常用于比较跨类别的聚合数据

类型有:散点图矩阵和三维散点图

散点图详述

  • 逻辑回归与多元回归分析的不同

逻辑回归的模型 是一个非线性模型,sigmoid函数,又称逻辑回归函数。但是它本质上又是一个线性回归模型,因为除去sigmoid映射函数关系,其他的步骤,算法都是线性回归的。可以说,逻辑回归,都是以线性回归为理论支持的。

另外它的推导含义:仍然与线性回归的最大似然估计推导相同,最大似然函数连续积(这里的分布,可以使伯努利分布,或泊松分布等其他分布形式),求导,得损失函数。

各种回归的详述

两种回归的不同

  • bootstrap数据的含义

Bootstrap这个词语其实指的是统计学中的一种算法,而我们一般又将这种算法解释成是自展法,这个方法主要指的就是用抽取的小样本的数值来预估需要统计的总样本数量,目前这个统计方法在生态学研究中得到较为广泛的使用,所以事实上,bootstrap数据可以解释成指的就是有放回地从总样本数量N中中抽样的n个样本。

基于bootstrap,有以下常用的机器学习方法

  • boosting
  • bagging
  • random forest(RF, 随机森林)
  • K-fold交叉验证

交叉验证(Cross-validation)主要用于建模应用中,例如PCR、PLS回归建模中。

交叉验证(Cross Validation),有的时候也称作循环估计(Rotation Estimation),是一种统计学上将数据样本切割成较小子集的实用方法,该理论是由Seymour Geisser提出的。交叉验证的基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set),首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标。

Holdout 验证

常识来说,Holdout 验证并非一种交叉验证,因为数据并没有交叉使用。 随机从最初的样本中选出部分,形成交叉验证数据,而剩余的就当做训练数据。 一般来说,少于原本样本三分之一的数据被选做验证数据。

K-fold cross-validation

K折交叉验证,初始采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据,其他K-1个样本用来训练。交叉验证重复K次,每个子样本验证一次,平均K次的结果或者使用其它结合方式,最终得到一个单一估测。这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次,10折交叉验证是最常用的[1]

留一验证

正如名称所建议, 留一验证(LOOCV)意指只使用原本样本中的一项来当做验证资料, 而剩余的则留下来当做训练资料。 这个步骤一直持续到每个样本都被当做一次验证资料。 事实上,这等同于和K-fold 交叉验证是一样的,其中K为原本样本个数。 在某些情况下是存在有效率的演算法,如使用kernel regression 和Tikhonov regularization。

交叉验证详述


第二天

  • 正则化

 L1范数:向量各元素的绝对值之和。L1使得导致稀疏解,(特征选择,可解释性)

 L2范数:欧几里得距离,L2范数作为正则化项,可以防止模型为了迎合训练集而过于复杂造成过拟合的情况,从而提高模型的泛化能力。

如上图所示,蓝色的圆圈表示问题可能的解范围,橘色的表示正则项可能的解范围。而整个目标函数(原问题+正则项)有解当且仅当两个解范围相切。从上图可以很容易地看出,由于L2范数解范围是圆,所以相切的点有很大可能不在坐标轴上,而由于L1范数是菱形(顶点是凸出来的),其相切的点更可能在坐标轴上,而坐标轴上的点有一个特点,其只有一个坐标分量不为零,其他坐标分量为零,即是稀疏的。所以有如下结论,L1范数可以导致稀疏解,L2范数导致稠密解。

  • Dropout:它的做法可以简单的理解为在DNNs训练的过程中以概率pp丢弃部分神经元,即使得被丢弃的神经元输出为0。

  • Batch Normalization:批规范化(Batch Normalization)严格意义上讲属于归一化手段,主要用于加速网络的收敛,但也具有一定程度的正则化效果。

归一化(Normalization):归一化的目标是找到某种映射关系,将原数据映射到[a,b][a,b]区间上。一般a,b会取[−1,1],[0,1][−1,1],[0,1]这些组合。

标准化(Standardization):用大数定理将数据转化为一个标准正态分布。

归一化:缩放仅仅跟最大、最小值的差别有关。

标准化:缩放和每个点都有关系,通过方差(variance)体现出来。与归一化对比,标准化中所有数据点都有贡献(通过均值和标准差造成影响)。

为什么要标准化和归一化?

  • 提升模型精度:归一化后,不同维度之间的特征在数值上有一定比较性,可以大大提高分类器的准确性。

  • 加速模型收敛:标准化后,最优解的寻优过程明显会变得平缓,更容易正确的收敛到最优解。如下图所示:

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值