数据分析方法论（一）

最新推荐文章于 2024-07-22 15:36:25 发布

zhaocen_1230

最新推荐文章于 2024-07-22 15:36:25 发布

阅读量1.7w

点赞数 8

文章标签：数据分析统计学

本文链接：https://blog.csdn.net/zhaocen_1230/article/details/79039395

版权

数据分析方法论主要有两大块：
1）统计分析方法论：

描述统计、假设检验、相关分析、方差分析、回归分析、聚类分析、判别分析、主成分与因子分析、时间序列分析、决策树等；

2）营销管理分析方法论：

SWOT、4P、PEST、SMART、5W2H、User behavior等。

一、统计分析方法论：
1.描述统计（Descriptive statistics）：
描述统计是通过图表或数学方法，对数据资料进行整理、分析，并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。
目的是描述数据特征，找出数据的基本规律。
描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。 ?
1.1、数据的频数分析：利用频数分析和交叉频数分析来检验异常值。此外，频数分析也可以发现一些统计规律。
1.2、数据的集中趋势分析：数据的集中趋势分析是用来反映数据的一般水平，常用的指标有平均值、中位数和众数等。
1）平均值：是衡量数据的中心位置的重要指标，反映了一些数据必然性的特点，包括算术平均值、加权算术平均值、调和平均值和几何平均值。
2）中位数：是另外一种反映数据的中心位置的指标，其确定方法是将所有数据以由小到大的顺序排列，位于中央的数据值就是中位数。
3）众数：是指在数据中发生频率最高的数据值。
如果各个数据之间的差异程度较小，用平均值就有较好的代表性；而如果数据之间的差异程度较大，特别是有个别的极端值的情况，用中位数或众数有较好的代表性。
1.3、数据的离散程度分析：数据的离散程度分析主要是用来反映数据之间的差异程度，常用的指标有方差和标准差。方差是标准差的平方，根据不同的数据类型有不同的计算方法。
1.4、数据的分布：常用偏度-峰度法需要用偏度和峰度两个指标来检查样本是否符合正态分布。偏度衡量的是样本分布的偏斜方向和程度；而峰度衡量的是样本分布曲线的尖峰程度。一般情况下，如果样本的偏度接近于0，而峰度接近于3，就可以判断总体的分布接近于正态分布。
1.5、绘制统计图：用图形的形式来表达数据。

2.假设检验：是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体作法是：根据问题的需要对所研究的总体作某种假设，记作H0；选取合适的统计量，这个统计量的选取要使得在假设H0成立时，其分布为已知；由实测的样本，计算出统计量的值，并根据预先给定的显著性水平进行检验，作出拒绝或接受假设H0的判断。常用的假设检验方法有u—检验法、t检验法、χ2检验法(卡方检验)、F—检验法，秩和检验等。

3.相关分析：相关分析是研究现象之间是否存在某种依存关系，并对具体有依存关系的现象探讨其相关方向以及相关程度，是研究随机变量之间的相关关系的一种统计方法。常见的有线性相关分析、偏相关分析和距离分析

4.方差分析(Analysis of Variance，简称ANOVA)：又称“变异数分析”或“F检验”，用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响，研究所得的数据呈现波动状。造成波动的原因可分成两类，一是不可控的随机因素，另一是研究中施加的对结果形成影响的可控因素。

5.回归分析：线性回归，曲线回归，二元logistic回归，多元logistic回归。
5.1、线性回归：线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。
5.2、曲线回归：两个变数间呈现曲线关系的回归。
5.3、二元logistic回归、多元logistic回归：Logistic回归主要用于因变量为分类变量（如疾病的缓解、不缓解，评比中的好、中、差等）的回归分析，自变量可以为分类变量，也可以为连续变量。他可以从多个自变量中选出对因变量有影响的自变量，并可以给出预测公式用于预测。
因变量为二分类的称为二项logistic回归，因变量为多分类的称为多元logistic回归。

6.聚类分析：主要解决的是在“物以类聚、人以群分”，基于用户间彼此距离的长短来对用户进行聚类划分的方法依然是当前最流行的方法。首先确定选择哪些指标对用户进行聚类；然后在选择的指标上计算用户彼此间的距离，距离的计算公式很多，最常用的就是直线距离（把选择的指标当作维度、用户在每个指标下都有相应的取值，可以看作多维空间中的一个点，用户彼此间的距离就可理解为两者之间的直线距离。）；最后聚类方法把彼此距离比较短的用户聚为一类，类与类之间的距离相对比较长。
6.1、k-means：从N个文档随机选取K个文档作为质心，对剩余的每个文档测量其到每个质心的距离，并把它归到最近的质心的类，重新计算已经得到的各个类的质心，迭代2～3步直至新的质心与原质心相等或小于指定阈值，算法结束。
6.2、分层：层次聚类(Hierarchical Clustering)是聚类算法的一种，通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中，不同类别的原始数据点是树的最低层，树的顶层是一个聚类的根节点。创建聚类树有自下而上合并和自上而下分裂两种方法。
6.3、FCM：是一种基于划分的聚类算法，它的思想就是使得被划分到同一簇的对象之间相似度最大，而不同簇之间的相似度最小。模糊C均值算法是普通C均值算法的改进，普通C均值算法对于数据的划分是硬性的，而FCM则是一种柔性的模糊划分。