当你拿到数据开始分析时,第一步通常会做什么?
是使用功能强大的JMP Graph Builder(图形生成器) 做可视化分析?
或是利用JMP Distribution(分布)平台做描述性统计量分析?
又或是利用JMP多样的预测建模工具,找到最适当的预测模型?
虽然这些都是JMP为人所乐道的一些功能,但是作为使用JMP进行分析的第一步,除了上述平台外,你不妨考虑利用Explore Outliers (探索离群值)及 Explore Missing Values(探索缺失值)平台,来清洗你的数据,正所谓磨刀不误砍柴工。
也许你认为探索缺失值还能理解,毕竟空值要先剔除,对后续分析比较合理。但是,为什么需要将离群值也排除?假如这样的离群值正是代表数据总体的状况,是否对我们的分析会有影响?而且,离群值很难抓取出来,不能先忽略这个影响吗?
要厘清这些问题,我们需要先搞清楚什么是离群值。
Part.1 哪些数据属于离群值?
一元数据的离群值
我们先讨论一元数据的情况。
随机生成1000个标准正态分布Nor(0, 1)的值,如图一,其中标记红色的点,为超出[-4,4]范围的离群点,这样的发生几率为0.0063%,是非常小的几率,于是这样小几率区域上发生的点我们就视为离群值。
图一 随机生成的常态分配点图
接着,我们来看二元变量的情形。
二元数据的离群值
在JMP软件中,利用Graph Builder(图形生成器) 分析,不论数据点是两个变量之间具有相同均值及变异数(X2 vs. X1)、或是具有不同均值及变异数(X3 vs. X1),如下方图二,我们都能用肉眼发现这些离群点(红点)似乎跟其他的点有不一样的趋势,且与数据中心点的距离较远。
图二 (a