(1)探索性数据分析(Exploratory Data Analysis, EDA)是统计分析和数据挖掘的一个重要前置步骤,很多统计软件都提供这个功能。但是,要探索什么?如何探索是本节主要讨论的内容,本节讨论的内容仅仅是探索数据分析的一小部分。JMP就是一个非常强大的数据探索工具,当然它的功能不仅限于此。
(2)探索性数据分析之前需要对数据做些转换,使数据的结构更适合分析,或者更适合发现数据之间的特征关系。比如之前讨论的行列转置。
(3)EDA由Turkey(1977)提出,主要内容包括:描述统计分析,检验变量分布及正态性检验,计算变量间相关系数,检测异常值,探索变量的非线性关系,检测缺失值,检验样本与总体的关系,检测频数关系表,使用多元统计方法探索变量间的线性结构关系。
(4)Proc Means, Proc Univariate都可以提供描述统计的功能,Proc means运算效率较高,但提供的统计功能较少。
(5)异常值发现
通常认为大于或者小于均值3个标准差的数据,即为异常数据。可以通过以下方式:
proc univriate来计算过滤条件大于均值+3标准差的观察记录;
也可以使用proc robustreg,详细用法可以参考UCLA IDRE 或者SAS SUGI 的文章。当分析数据被许多异常值污染的时候,PROC ROBUSTREG常用于取代最小二乘回归,因此它也常用于检测异常值。
也可以使用聚类方法PROC FASTCLUS。K-MEANS对异常值很敏感。
(6)正态性检验 PROC UNIVARIATE data=DSin normal;
(7)交叉表分析 PROC TABULATE或者 PROC FREQ
(8)线性结构分析 主成分或者因子分析