在日常分析数据的过程中,我们往往只需要整个数据集中的一部分,比如只关注一部分观测/行(男性或女性、某个年龄段的患者或者是患有某种疾病的患者)或者一部分变量/列等等这些可以称之为子集的数据集,而拆分原始数据的过程也同时是生成子集的过程。
那么在JMP中如何快速拆分这些数据集呢?如何选择符合条件的观测值?如何一键拆分数据为多个子集?JMP中又有哪些简便快捷的随机抽样方法?今天就带大家一起学习数据清洗的一个重要部分——拆分数据的实用技巧,帮助你省时省力地提高分析的准确性。
为了帮助更多的临床医师学习如何运用JMP高效地开展数据分析,提高日常工作和发表论文的效率,2020年8月起,JMP资深用户、JMP特约专栏作者、资深统计学家冯国双博士及其团队将在JMP数据分析平台为大家分享一系列统计及数据分析、JMP实战操作等干货内容,每期一个经典话题,帮助大家掌握一个新技能。值得注意的是,这些话题并非仅针对临床医师,对所有运用JMP软件开展数据分析的小伙伴都适用。 本文为此系列文章的第四期。
在JMP中,生成子集的菜单位于【表】→【子集】,如图1。
图1 生成子集的主要操作页面
那么具体该如何拆分呢?这个对话框里的每个选项都有何意义?又该如何利用好这些选项呢?我们先从最简单的说起。
01 如果只需要一部分变量(列)
比如在下图的数据集里,只需要Y和年龄两个变量(当然实际情况不会是这样,一般情况下,除非