磨刀不误砍柴工——利用JMP探索离群值

本文介绍了如何使用JMP软件进行离群值探索,强调了离群值在数据分析中的重要性。通过一元和二元数据的实例,展示了JMP的探索离群值平台,包括Quantile Range Outliers和K Nearest Neighbor Outliers功能。离群值的存在可能影响模型的准确性,文章通过对比移除离群值前后R-square的变化,证明了离群值对回归模型的影响。JMP的离群值工具帮助用户避免误判,提高数据分析的可靠性。
摘要由CSDN通过智能技术生成

当你拿到数据开始分析时,第一步通常会做什么?

是使用功能强大的JMP Graph Builder(图形生成器) 做可视化分析?

或是利用JMP Distribution(分布)平台做描述性统计量分析?

又或是利用JMP多样的预测建模工具,找到最适当的预测模型?

虽然这些都是JMP为人所乐道的一些功能,但是作为使用JMP进行分析的第一步,除了上述平台外,你不妨考虑利用Explore Outliers (探索离群值)及 Explore Missing Values(探索缺失值)平台,来清洗你的数据,正所谓磨刀不误砍柴工。
在这里插入图片描述

也许你认为探索缺失值还能理解,毕竟空值要先剔除,对后续分析比较合理。但是,为什么需要将离群值也排除?假如这样的离群值正是代表数据总体的状况,是否对我们的分析会有影响?而且,离群值很难抓取出来,不能先忽略这个影响吗?

要厘清这些问题,我们需要先搞清楚什么是离群值。

Part.1 哪些数据属于离群值?

一元数据的离群值

我们先讨论一元数据的情况。

随机生成1000个标准正态分布Nor(0, 1)的值,如图一,其中标记红色的点,为超出[-4,4]范围的离群点,这样的发生几率为0.0063%,是非常小的几率,于是这样小几率区域上发生的点我们就视为离群值。
在这里插入图片描述
图一 随机生成的常态分配点图

接着,我们来看二元变量的情形。

二元数据的离群值

在JMP软件中,利用Graph Builder(图形生成器) 分析,不论数据点是两个变量之间具有相同均值及变异数(X2 vs. X1)、或是具有不同均值及变异数(X3 vs. X1),如下方图二,我们都能用肉眼发现这些离群点(红点)似乎跟其他的点有不一样的趋势,且与数据中心点的距离较远。
在这里插入图片描述

图二 (a

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值