10个统计分析方法

为什么要学习统计学习?

首先,为了知道如何以及何时使用各种分析方法,理解各种分析方法背后的思想很重要。要想掌握更精巧复杂的方法,你必须先理解较简单的方法;其次,当你想准确地评估一种分析方法的效果时,你得知道其运行的多好或者多么不好;第三,这是一个令人兴奋的研究领域,在科学、业界和金融领域有重要的应用。最后,统计学习也是一名现代数据科学家的重要素养。

1)线性回归
在统计学中,线性回归是一种通过拟合因变量(dependent)和自变量(independent variable)之间最佳线性关系来预测目标变量的方法。最佳拟合是通过确保每个实际观察点到拟合形状的距离之和尽可能小而完成的。最佳拟合指的是没有其他形状可以产生更小的误差了。线性回归的两种主要类型是:简单线性回归(Simple Linear Regression)和多元线性回归(Multiple Linear Regression)。简单线性回归使用单一的自变量,通过拟合出最佳的线性关系来预测因变量。而多元线性回归使用多个自变量,拟合出最佳的线性关系来预测因变量。

2)分类
分类是一种数据挖掘技术,通过确定一组数据所属的类别以实现更准确的预测和分析。分类有时候也称为决策树,是对大型数据集进行分析的利器之一。常用的分类方法有两种:逻辑回归和判别分析(Discriminant Analysis)。

逻辑回归适合于因变量为二元变量时。像所有的回归分析一样,逻辑回归是一种预测性分析。逻辑回归用于描述数据并解释一个二元因变量与一个或多个名义、序列、时间间隔或比率独立变量之间的关系。逻辑回归可以回答的问题有:

每增加一磅体重和每天吸烟的包数如何影响患肺癌的概率?
卡路里摄入、脂肪摄入和年龄是否对心脏病发作有影响?

在判别分析中,先验知道两个或多个分组或类别(clusters),然后基于已测量的特征将1个或多个新观测对象分类到一个已知类别中去。判别分析在每个类别下分别对预测变量X的分布进行建模,然后使用贝叶斯定理将这些变量转换为给定X值的对应类别的概率估计。这些模型可以是线性的或者二次方的:

线性判别分析(Linear Discriminant Analysis)为每个观测值计算“判别分数”来判断它应该属于哪个类别。判别分数是通过寻找自变量的线性组合得到的。它假设每个类别中的观测值都来自于多元高斯分布,并且预测变量的协方差在响应变量Y的所有k个水平上都相同。
二次判别分析(Quadratic Discriminant Analysis)提供了一个替代方法。与线性判别分析一样,二次判别分析假设每个Y类别的观察值都来自于高斯分布。然后,与线性判别分析不同的是,二次判别分析假设每个类都有自己的协方差矩阵。换句话说,预测变量并未假设在Y中的所有k个水平上都具有共同的方差。

3)重采样方法(Resampling Methods)

重采样是从原始数据中重复采集样本的方法。这是一种非参数统计推断方法。换句话说,重采样方法不涉及使用通用分布表来计算近似的p概率值。

重采样根据实际数据生成一个唯一的采样分布。它使用实验方法而不是分析方法来生成唯一的样本分布。它产生的是无偏估计,因为它是基于研究人员研究的数据的所有可能结果生成的无偏样本。为了理解重采样的概念,你需要理解术语Bootstrapping和交叉验证(Cross-Validation)。

Bootstrapping 在很多情况下是一种有用的方法,比如评估模型性能、模型集成(ensemble methods)、估计模型的偏差和方差等。它的工作机制是对原始数据进行有放回的采样,并将“没被选上”的数据点作为测试用例。我们可以这样操作多次,并计算平均得分作为模型性能的估计。

交叉验证是评估模型性能的一种方法,它通过将训练数据分成k份,使用k-1份作为训练集,使用保留的那份作为测试集。以不同的方式重复整个过程k次。最终取k个得分的平均值作为模型性能的估计。

对于线性模型而言,普通最小二乘法是拟合数据的主要标准。不过,接下来的3种方法可以为线性模型提供更好的预测准确性和模型可解释性。

4)子集选择(Subset Selection)
这种方法先确定与因变量相关的p个自变量的一个子集,然后使用子集特征的最小二乘拟合模型。
最优子集法(Best-Subset Selection)对p个自变量的所有可能组合分别做最小二乘法回归,查看最终的模型拟合效果。该算法分为2个阶段:
拟合所有包含k个自变量的模型,其中k是模型的最大长度;
使用交叉验证误差来选出最佳模型。
使用测试误差或者验证误差而不是训练误差来评估模型很重要,因为RSS和R2会随着变量的增加而单调增加。最好的方式是交叉验证并选择测试误差上R2最高而RSS最低的模型。

向前逐步选择(Forward Stepwise Selection)使用一个更小的自变量子集。它从一个不包含任何自变量的模型开始,将自变量逐个加入模型中,一次一个,直到所有自变量都进入模型。每次只将能够最大限度提升模型性能的变量加入模型中,直到交叉验证误差找不到更多的变量可以改进模型为止。
向后逐步选择(Backward Stepwise Selection)在开始时包含全部p个自变量,然后逐个移除最没用的自变量。
混合方法(Hybrid Methods)遵循向前逐步选择原则,但是在每次添加新变量之后,该方法也可能移除对模型拟合没有贡献的变量。

5)特征缩减(Shrinkage)

这种方法使用所有p个自变量拟合模型,但相对于最小二乘估计,该方法会让一些自变量的估计系数向着0衰减。这种衰减又称正则化(Regularization),具有减少方差的作用。根据所使用的缩减方法,一些系数可能被估计为0。因此这个方法也用于变量选择。最常用的两种缩减系数方法是岭回归(Ridge regression)和L1正则化(Lasso)。

岭回归(Ridge regression)与最小二乘类似,但在原有项的基础上增加了一个正则项。和最小二乘法一样,岭回归也寻求使RSS最小化的参数估计,但当待估参数接近于0时,它会有一个收缩惩罚。这个惩罚会促使缩减待估参数接近于0。您无需深入数学海洋,仅需要知道岭回归通过减小模型方差来缩减特征就可以了。就像主成分分析一样,岭回归将数据投影到d维空间,然后对比低方差(最小主成分)和高方差(最大主成分)的系数进行剔除和筛选。

岭回归至少有一个缺点:它的最终模型中包含全部p个自变量。惩罚项会让许多系数接近于0但永远不为0。这一点通常对预测准确性而言并不是问题,但它可能会使模型更难解释。正则化克服了这个缺点,只要s足够小,它能强迫某些系数为0。S=1就是常规的最小二乘法回归,当s接近于0时,系数朝着0缩减。因此正则化也相当于进行了变量选择。

6)降维(Dimension Reduction)
降维将估计p+1个系数减少为M+1个系数,其中M<p。这是通过计算变量的M个不同的线性组合或投影来实现的。然后,这M个投影被用作预测变量,使用最小二乘来拟合线性回归模型。常用的两种降维方法分别是主成分回归(Principal component regression)和偏最小二乘法(Partial least squares)。

可以将主成分回归描述为从大量变量中导出低维特征集的方法。数据的第一主成分方向是观测值变化最大的方向。换句话说,第一主成分是一条尽可能拟合数据的直线。可以拟合p个不同的主成分。第二主成分是与第一主成分不相关的变量的线性组合,且方差最大。主成分分析的思想是使用正交方向的数据的线性组合来捕获数据中的最大方差。通过这种方式可以组合相关变量的影响,从可用数据中提取更多信息,而在常规最小二乘中我们必须丢弃其中一个相关变量。

主成分分析法识别最能代表预测变量X的线性组合。这些组合(方向)以无监督的方式被识别,响应变量Y并未用于帮助确定主成分方向,因此不能保证最能解释预测变量的方向在预测上也是最好的(尽管通常都这样假定)。偏最小二乘法是主成分分析法的一种监督学习替代方式。它也是一种降维方法,首先识别一个新的较小的特征集,这些特征是原始特征的线性组合,然后通过对新的M个特征最小二乘拟合成线性模型。与主成分分析法不同的是,偏最小二乘法会利用响应变量来识别新特征。

7)非线性模型(Nonlinear Models)
在统计学中,非线性回归是回归分析的一种形式,观测数据是通过一个或多个自变量的非线性组合函数来建模。数据用逐次逼近的方法进行拟合,下面是一些处理非线性模型的重要方法:

如果一个实数域上的函数可以用半开区间上的指示函数的有限次线性组合来表示,则它被称为阶跃函数(step function)。换一种不太正式的说法就是,阶跃函数是有限段分段常数函数的组合。

分段函数是由多个子函数定义的函数,每个子函数应用于主函数域的某一个区间上。分段实际上是表达函数的一种方式,而不是函数本身的特性,但是加上额外的限定条件,它也可以描述函数的性质。例如,分段多项式函数是这样一个函数,它是每个子域上的多项式,但每个子域上可能是不同的函数。

样条曲线(spline)是由多项式分段定义的特殊函数。在计算机图形学中,样条是指分段多项式参数曲线。因为它们的结构简单,拟合简易而准确,可以近似曲线拟合和交互式曲线设计中的复杂形状,样条曲线是很流行的曲线。

广义可加模型(Generalized additive model)是一种广义线性模型,其中线性预测变量依赖于某些预测变量的未知光滑函数,侧重于这些光滑函数的推理。

8)树形方法(Tree-Based Methods)
树形方法可以用于回归和分类问题。这涉及到将预测空间分层或分割成若干简单区域。由于用于分割预测空间的分裂规则集可以概括成树形,因此这类方法被称为决策树方法。下面的方法都是先生成多棵树,然后将这些树组合在一起以产生单个共识预测。

Bagging是一种通过从原始数据生成额外的训练数据从而减少预测方差的方法,它通过使用重复的组合来生成与原始数据相同的多样性。通过增加训练集的大小,虽然不能提高模型的预测力,但可以减小方差,将预测调整到预期结果。

Boosting是一种使用多个不同模型计算输出的方法,然后使用加权平均法对结果进行平均。通过改变加权公式,结合这些模型的优点和缺陷,使用不同的微调模型,可以为更广泛的输入数据提供良好的预测力。

随机森林算法非常类似于Bagging。先采集训练集的随机bootstrap样本,然后采集特征的随机子集来训练单棵树;而在bagging时是给每一棵树全部特征。由于随机特征选择,与常规bagging相比,树彼此之间更加独立,这通常会导致更好的预测性能(因为更好的方差偏差权衡),而且训练速度更快,因为每棵树只从特征的一个子集学习。

9)支持向量机

支持向量机是一种分类技术,属于机器学习中的监督学习模型。通俗地说,它通过寻找超平面(二维中的线,三维中的平面和更高维中的超平面,更正式地,超平面是n维空间的n-1维子空间)以及最大边界(margin)来划分两类点。从本质上讲,它是一个约束优化问题,因为其边界最大化受到数据点分布的约束(硬边界)。

“支持”这个超平面的数据点被称为“支持向量”。在上图中,填充的蓝色圆圈和两个实心方块是支持向量。对于两类数据不能线性分离的情况,这些点将被投影到一个更高维的的空间中,在这个空间里可能会线性可分。多分类问题可以分解为多个一对一或者一对其余类的二分类问题。

10)无监督学习
到目前为止,我们只讨论了监督学习,即数据类别是已知的,算法的目标是找出实际数据与它们所属的类别之间的关系。当类别未知时,我们使用另一种方法,叫做无监督学习,因为它让学习算法自己去找出数据中的模式。聚类是无监督学习的一个例子,其中不同的数据被聚类为密切相关的分组。下面是最广泛使用的无监督学习算法的列表:

主成分分析:通过识别一组具有最大方差和相互不相关的特征的线性组合来生成低维表示的数据集。这种方法有助于理解变量在无监督环境下的潜在的相互作用。
k-Means聚类:根据聚类中心点的距离将数据分为k个不同的聚蔟。
层次聚类:通过创建一棵聚类树来构建多级分层结构。
  • 13
    点赞
  • 118
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
许多人简单地认为统计(Statistics)就是收集数字,其实这仅仅是统计学的原始意义。 现代统计学已远远超出了这个范围,发展成为广泛应用于社会科学、自然科学等领域的科学 方法。它是研究客观事物数量特征和数量关系的方法论学科,能够告诉人们如何通过打开几 扇窗口去探索一个未知的世界,教会人们怎样用一种新的方式来思考问题,是一门很实用的 学科。 大千世界,万事万物,无一不具有它的质量、数量两个方面,都是一定质量和数量的结 合和表现。在对事物质的了解基础上,从数量方面认识事物,把握事物的数量方面,做到胸 中有数,是对事物认识深化的具体表现。统计作为一种强有力的定量分析方法,在社会、 经济、政治、生活等领域得到了广泛的应用,起着日益重要的作用。大至国家的宏观决策, 小至企事业单位的微观管理,都离不开统计的应用。现代市场经济对统计信息的需求急剧增 加,对统计理论与方法提出了更高的要求。 面对二十一世纪,我国的人文社会科学肩负着时代的重托。社会发展问题、经济可持续 发展问题、国际竞争力问题、金融风险管理问题、保险精算问题、人口与社会保障问题、环 境保护问题等等,这些都迫切地等待着我们去深入地研究。要解决这些问题,置身于古老东 方文化氛围之中的中国学者需要冷静思考。时代要求我们必须抛开偏见,正确理解与批判地 吸收建立在发达商品经济基础上的外来文化,加强数学方法、统计学方法的学习,提高我们 的定性分析与定量分析相结合的能力。这样,中国人才会在新的世纪里大步赶上世界发达国 家。 第二节 统计学的研究对象及其学科分类 一、统计学的研究对象 1992 年11 月,国家技术监督局正式批准统计学为一级学科,国家标准局颁布的学科分 类标准已将统计学列为一级学科,1998 年教育部进行的专业调整也将统计学归入理学类一 级学科。建设一级学科统计学的构想反映了统计学学科建设的内在要求,符合国际统计学发 展的大趋势。所谓一级学科统计学,指的是研究搜集和分析数据、研究客观事物数量特征和 数量关系的方法论科学。一级学科统计学首先是一门方法论,它是研究客观现象(包括自然 现象和社会现象)数量特征和数量关系、具有明确对象的方法论科学。统计方法论性质是指 它作为一门认识方法论科学,为人们提供一套从不确定的现象中探索现象规律性的理论和方 法。这里作为统计学研究对象具体体现的“数据”,是指进行各种统计(指统计工作)、计算、 科学研究或技术设计等所依据的数值。 统计数据所具有的不同特点,使得统计学百花园色彩纷呈,各具特色。数据中的实验数 据主要来自自然技术现象,如对产品配方检验得到的数据等等,这类数据大多在可控条件下 通过物理测量取得,这类数据的搜集、整理工作并不复杂,研究的重点在于数据分析。另一
 统计分析方法有哪几种?下面天互数据将详细阐述,并介绍一些常用的统计分析软件。   一、指标对比分析法指标对比分析法   统计分析的八种方法一、指标对比分析法指标对比分析法,又称比较分析法,是统计分析中最常用的方法。是通过有关的指标对比来反映事物数量上差异和变化的方法,有比较才能鉴别。 指标分析对比分析方法可分为静态比较和动态比较分析。静态比较是同一时间条件下不同总体指标比较,如不同部门、不同地区、不同国家的比较,也叫横向比较;动态比较是同一总体条件不同时期指标数值的比较,也叫纵向比较。 二、分组分析法指标对比分析法   分组分析法指标对比分析法对比,但组成统计总体的各单位具有多种特征,这就使得在同一总体范围内的各单位之间产生了许多差别,统计分析不仅要对总体数量特征和数量关系进行分析,还要深入总体的内部进行分组分析。分组分析法就是根据统计分析的目的要求,把所研究的总体按照一个或者几个标志划分为若干个部分,加以整理,进行观察、分析,以揭示其内在的联系和规律性。   统计分组法的关键问题在于正确选择分组标值和划分各组界限。   三、时间数列及动态分析法   时间数列。是将同一指标在时间上变化和发展的一系列数值,按时间先后顺序排列,就形成时间数列,又称动态数列。它能反映社会经济现象的发展变动情况,通过时间数列的编制和分析,可以找出动态变化规律,为预测未来的发展趋势提供依据。时间数列可分为绝对数时间数列、相对数时间数列、平均数时间数列。 大数据的统计分析方法-全文共4页,当前为第1页。  时间数列速度指标。根据绝对数时间数列可以计算的速度指标:有发展速度、增长速度、平均发展速度、平均增长速度。 大数据的统计分析方法-全文共4页,当前为第1页。   动态分析法。在统计分析中,如果只有孤立的一个时期指标值,是很难作出判断的。如果编制了时间数列,就可以进行动态分析,反映其发展水平和速度的变化规律。   四、指数分析法   指数是指反映社会经济现象变动情况的相对数。有广义和狭义之分。根据指数所研究的范围不同可以有个体指数、类指数与总指数之分。   指数的作用:一是可以综合反映复杂的社会经济现象的总体数量变动的方向和程度;二是可以分析某种社会经济现象的总变动受各因素变动影响的程度,这是一种因素分析法。操作方法是:通过指数体系中的数量关系,假定其他因素不变,来观察某一因素的变动对总变动的影响。   用指数进行因素分析。因素分析就是将研究对象分解为各个因素,把研究对象的总体看成是各因素变动共同的结果,通过对各个因素的分析,对研究对象总变动中各项因素的影响程度进行测定。因素分析按其所研究的对象的统计指标不同可分为对总量指标的变动的因素分析,对平均指标变动的因素分析。   五、平衡分析法   平衡分析是研究社会经济现象数量变化对等关系的一种方法。它把对立统一的双方按其构成要素一一排列起来,给人以整体的概念,以便于全局来观察它们之间的平衡关系。平衡关系广泛存在于经济生活中,大至全国宏观经济运行,小至个人经济收支。平衡分析的作用:一是从数量对等关系上反映社会经济现象的平衡状况,分析各种比例关系相适应状况;二是揭示不平衡的因素和发展潜力;三是利用平衡关系可以从各项已知指标中推算未知的个别指标。   六、综合评价分析   社会经济分析现象往往是错综复杂的,社会经济运行状况是多种因素综合作用的结果,而且各个因素的变动方向和变动程度是不同的。如对宏观经济运行的评价,涉及生活、分配、流通、消费各个方面;对企业经济效益的评价,涉及人、财、物合理利用和市场销售状况。如果只用单一指标,就难以作出恰当的评价。 大数据的统计分析方法-全文共4页,当前为第2页。  进行综合评价包括四个步骤: 大数据的统计分析方法-全文共4页,当前为第2页。   1.确定评价指标体系,这是综合评价的基础和依据。要注意指标体系的全面性和系统性。   2.搜集数据,并对不同计量单位的指标数值进行同度量处理。可采用相对化处理、函数化处理、标准化处理等方法。   3.确定各指标的权数,以保证评价的科学性。根据各个指标所处的地位和对总体影响程度不同,需要对不同指标赋予不同的权数。   4.对指标进行汇总,计算综合分值,并据此作出综合评价。   七、景气分析   经济波动是客观存在的,是任何国家都难以完全避免的。如何避免大的经济波动,保持经济的稳定发展,一直是各国政府和经济之专家在宏观调控和决策中面临的重要课题,景气分析正是适应这一要求而产生和发展的。景气分析是一种综合评价分析,可分为宏观经济景气分析和企业景气调查分析。   宏观经济景气分析。是国家统计局20世纪80年代后期开始着手建立监测指标体系和评价方法,经过十多年时间和不断完善,已形成制度,定期提供景气分析报告,对宏观经济运行状态起到晴雨表和报警器的

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值