数据分析的统计基础

1.1
什么是数据分析?

数据分析有针对性地收集、加工、整理数据,并采用统计、挖掘技术分析和解释数据,为特定的研究或商业目的提供参考。

1.2
数据分析步骤?

明确分析目的和内容、数据收集、数据预处理、数据分析、数据展现和报告撰写

1.2.1 数据预处理

第一步:数据审查。数据的数量(记录数)是否满足分析的最低要求。变量值的内容是否与研究目的要求一致,是否全面。包括利用描述性统计分析,检查各个变量的数据类型,变量值的最大值、最小值、平均数、中位数等,数据个数、缺失值或空值个数等。

第二步:数据清洗。该步骤针对数据审查过程中发现的明显错误值、缺失值、异常值、可疑数据,选用适当的方法进行“清理”,使“脏”数据变为“干净”数据,保证后续的数据分析得出可靠的结论。当然,数据清理还包括对重复记录进行删除。(缺失值、异常值、重复值)

第三步:数据转换。分析对象的可比性,但不同变量值由于计量单位等不同,往往造成数据不可比。包括无量纲化处理、线性变换、汇总和聚集、适度概化、规范化,以及属性构造等。分类数据编码等。

第四步:数据验证。该步骤的目的是初步评估和判断数据是否满足统计分析的需要,从而决定是否需要增加或减少数据量。可以利用简单的线性模型及散点图、直方图、折线图等图形进行探索性分析,利用相关分析、一致性检验等方法对数据的准确性进行验证,确保不把错误和有偏差的数据带入到数据分析模型中。(数据探索)

1.3
数据分析方法简介

1.3.1 单纯的数据加工方法

1.描述性统计分析

描述性统计分析分为集中趋势分析、离中趋势分析和数据分布分析三大部分。

集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势,例如测试班级的平均成绩是多少。

离中趋势分析主要靠全距、四分位距、方差、标准差等统计指标来研究数据的离中趋势。例如,当我们想知道两个教学班的语文成绩哪个班级的成绩分布更分散时,就可以用两个班级的方差来比较。

数据分布分析是指和正态分布相比,所得数据的直方图从形态上看是左偏的还是右偏的,从峰度上看是尖峰的还是扁平的

2.相关分析

相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象进行相关方向及相关程度的研究。两变量共同变化的紧密程度一一相关系数。

1.3.2 基于数理统计的数据分析方法

1.方差分析

方差分析(Analysis of Variance,ANOVA)又称“变异数分析”、“F检验”。用于两个及两个以上样本均数差别的显著性检验。

2.回归分析

回归分析(Regression)是确定两个或两个以上变量之间相互依赖的定量关系的一种统计分析方法,它主要研究一个随机变量Y对另一个变量(X)或一组(X1,X2,…,Xk)变量的相依关系。

3.因子分析

因子分析(FactorAnalysis)是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系,减轻决策困难的分析方法。在社会经济统计研究中,因子分析常以主成分分析为基础。

1.3.3 基于数据挖掘的数据分析方法

1.聚类分析

聚类分析(Cluster Analysis)指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分到不同的类或者簇的过程,所以同一个簇中的对象有很大的相似性,而不同簇之间的对象有很大的相异性。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。

2.分类分析

(1)决策树

决策树是应用最广的归纳推理算法之一,是一种逼近离散值目标函数的方法,对噪声数据有很好的健壮性且能学习析取表达式。决策树通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。树上的每一个节点都说明了对实例的某个属性的测试,并且该节点的每一个后继分支对应于该属性的一个可能值。

决策树的优点:可以生成可理解的规则;计算量相对来说不是很大;可以处理连续和离散变量;决策树可以清晰地显示出哪些变量比较重要。
决策树的缺点:对连续性的变量比较难预测;当类别太多时,错误可能会增加得比较快;一般的算法在分类时,仅根据一个属性来进行分类;不是全局最优。

(2)人工神经网络

就是通过输入多个非线性模型及不同模型之间的加权互联(加权的过程在隐蔽层完成),最终得到一个输出模型。其中,隐蔽层所包含的就是非线性函数。

人工神经网络的特点:可以充分逼近任意复杂的非线性关系;所有定量或定性的信息都等势分布贮存于网络内的各神经元中,故有很强的鲁棒性和容错性;采用并行分布处理方法,使得快速进行大量运算成为可能;可学习和自适应不知道或不确定的系统;能够同时处理定量、定性知识。

(3)贝叶斯分类方法

贝叶斯分类(Bayesian Classification)方法是非常成熟的统计学分类方法,它主要用来预测类成员之间关系的可能性。例如通过一个给定观察值的相关属性来判断其属于一个特定类别的概率。

(4)支持向量机

作为一种新的分类方法,支持向量机以结构风险最小为原则。在线性的情况下,它在原空间寻找两类样本的最优分类超平面。在非线性的情况下,它使用一种非线性的映射,将原训练集数据映射到较高的维上。在新的维上,它搜索线性最佳分离超平面,使用一个适当的方法对足够高维的非线性映射,两类数据总可以被超平面分开。

(5)随机森林
随机森林(Random Forest,RF)是一种组合分类器,它利用Bootstrap重抽样方法从原始样本中抽取多个样本,对每个Bootstrap样本进行决策树建模,然后将这些决策树组合在一起,通过投票得出最终分类或预测的结果。
大量的理论和实证研究都证明了随机森林算法具有较高的预测准确率,对异常值和噪声具有很好的容忍度,且不容易出现过拟合。

3.关联规则

关联规则数据挖掘的主要目的是找出数据集中的频繁模式(Frequent Pattern,即多次重复出现的模式)和并发关系(CooccurrenceRelationships,即同时出现的关系),频繁和并发关系也被称作关联(Association)。

应用关联规则最经典的案例就是购物篮分析(Basket Analysis),通过分析顾客购物篮中商品之间的关联,可以挖掘顾客的购物习惯,从而帮助零售商更好地制定有针对性的营销策略。

4.回归分析

回归(Regression)分析包括线性回归(Linear Regression),这里主要是指多元线性回归和逻辑斯蒂回归(Logistic Regression)。其中,在数据化运营中更多使用的是逻辑斯蒂回归,它包括响应预测、分类划分等内容。

最小二乘法,即找出一组对应自变量的相应参数,以使因变量的实际观测值与回归方程的预测值之间的总方差减到最小。

1.3.4 基于大数据的数据分析方法

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值