R语言选择数据子集

最新推荐文章于 2023-08-28 00:45:43 发布

奋起的小鹰

最新推荐文章于 2023-08-28 00:45:43 发布

阅读量7.3k

点赞数 3

文章标签： r语言 linq 开发语言

本文链接：https://blog.csdn.net/zsc943290710/article/details/123531682

版权

利用R进行分析时，有时候我们需要挑选部分变量或者行数据导出，或者需要分层分析，只对一部分数据进行分析，这个时候就需要我们利用R语言生成数据子集。主要包括三个方面的子集选择：

举例：数据集data.xlsx文件中包括ID、age、gender、weight、height、BMI、WBC、RBC。

1、只选择部分变量生成子集；

#导入数据

library(readxl)

data<-read_xlsx("d:/data/data.xlsx",header=T)

#数据子集中保留ID、age 、gender、weight、height、BMI六个变量。

vars<-c("ID","age","gender","weight","height","BMI")

data1<-data[vars]

data1<-data[c("ID","age","gender","weight","height","BMI")] #同上面两行代码的效果是一样的

data1<-data[,c("ID","age","gender","weight","height","BMI")] #也可以这样表达；

data1<-data[1:6]

data1<-data[,1:6]

#也可以通过删除不需要的变量来生成新子集；

data1<-data[c(-7,-8)] #当知道不需要的变量序号时

myvars<-names(data) %in% c("WBC","RBC")

data1<-data[!myvars]

2、只选择部分观测形成新子集，使用subset()函数；例如选择年龄大于等于18岁小于60岁的人群；

data2<-subset(data,age>=18&age<60)

3、既选择部分变量又选择某一部分观测数据作为新子集；也是使用subset（）函数,需要加入select参数；例如选择男性的身高、体重、BMI作为一个新数据集。

data3<-subset(data,gender=="M",select=c("ID","gender","weight","height","BMI"))

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

奋起的小鹰

关注关注

3
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

R语言示例：选取数据框的指定列或字段

CyberWizarDD的博客

08-11

4520

本文介绍了在R语言中选取数据框中特定列或字段的方法。我们可以使用方括号操作符（单个方括号或双重方括号）直接选取列或字段，也可以使用dplyr包提供的select函数进行选取。根据实际需求，选择合适的方法可以更方便地处理和分析数据。以上就是关于在R语言中选取数据框指定列或字段的示例代码和解释。希望本文能对你有所帮助！

使用R语言选择变量和数据

PixelPusher的博客

08-19

1264

根据您的需求，选择适合您的方法来选择变量和数据子集，并在分析和建模中使用它们。在上面的示例中，我们使用dplyr包中的select()函数选择了数据框data中的变量var1，并将其存储在selected_var中。在上面的示例中，我们使用dplyr包中的filter()函数选择了数据框data中var1大于2的数据子集，并将其存储在selected_data中。在上面的示例中，我们使用subset()函数选择了数据框data中var1大于2的数据子集，并将其存储在selected_data中。

参与评论您还未登录，请先登录后发表或查看评论

R语言选取子集

01-07

R语言选取子集从一个大的数据集中选取、删除部分子集，或者从原有的集合中抽取子集从而构造不同的训练集和测试集都是十分常用的。这篇博客主要讲解几种选取子集的方法 1、选入子集如果数据集包含过多无用的变量，则可以从一个大数据集中选择有限数量的变量来创建一个新的数据集，这是常有的事。 new dataframe <- dataframe[row indices, column indices]可以用来选择子集 per <- data.frame(name = c(张三,李四,王五,赵六), q1 = c(23,45,34,1000),

R语言学习笔记之一：选取子集

qq742的博客

11-21

3万+

在R中取数据集取子集是常用的操作，其使用的方法很零活，但是有些操作规律性不强，容易让初学者产生一些疑惑，下面我总结了一些选取子集的方法，希望对大家有所帮助（部分代码和内容选自《R语言实战》） manager date gender age q1 q2 q3 q4 q5 leadership

学习笔记（43):R语言入门基础-取部分数据（子集）

weixin_49657468的博客

11-28

1255

本课程旨在帮助学习者快速入门R语言：课程系统详细地介绍了使用R语言进行数据处理的基本思路和方法。课程能够帮助初学者快速入门数据处理。课程通过大量的案例详细地介绍了如何使用R语言进行数据分析和处理课程操作实际案例教学，通过编写代码演示R语言的基本使用方法和技巧 ...

R语言提取数据中的任意子集

qq_44889022的博客

11-22

4316

# 生成数据 data <- data.frame(name = c('bob', 'tomas', 'jack'), year = c(17, 18, 19), score1 = c(78, 85, 90), score2 = c(88, 89, 97)) # 方法一：在不知道是哪几列的情况下 # 想要提取的变量

R语言数据集取子集

qq_65701798的博客

10-11

2944

从leadership数据框中选择变量q1, q2, q3, q4, q5，并将其保存到数据框newdata中方法1：直接取数据集名称[,]

选取制定一列数据_R语言数据处理与分析入门 2（a brief tutorial）

weixin_42365303的博客

01-05

2452

在上一篇文章中，我介绍了R中简单的数据操作，以及循环、判断语句。此外还涉及到了一些简单的统计分析，这部分内容没有展开论述。张光耀：R语言数据处理与分析入门（a brief tutorial）zhuanlan.zhihu.com在这一篇文章中，我仍然“以任务为导向”，在完成任务的过程中讲解如何在R中进行一般线性模型的分析。有人会问为什么为什么不从t检验和方差分析开始讲？答曰：这两者都是线性模型的特...

使用R进行数据提取

weixin_41151172的博客

05-20

2万+

数据提取是数据分析日常工作中遇到最多的需求，本篇文章介绍如何通过R按特定的维度或条件对数据进行提取，完成数据提取需求。读取并创建数据表首先第一步是读取数据，并创建名称为loandata的数据表。后面我们将从这个表中进行数据提取。12#读取并创建数据表loandata=data.frame(read.csv('loan_data.csv',header = 1))将数据表中的用户ID列设置为索引列，...

R语言最优子集选择与K折交叉验证

wildwind0907的博客

02-01

8756

## 最优子集选择 best_subset_selection &lt;- function(X, Y, Nfolds){ # 生成所有可能的组合 m &lt;- ncol(X) idx &lt;- 1:(2^m-1) t &lt;- vector() mat &lt;- sapply(idx, function(id){ t &lt;- rbind(t, as.inte...

R语言对数据的部分操作

u010270891的博客

04-15

8791

1、R语言定义：【百度百科】R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个用于统计计算和统计制图的优秀工具。2、读数据：data <- read.csv("文件名.csv",header=T,check.names=FALSE) 读入的而文件存在data.frame（数据框里面）注意：此时数据框里面数据的类型可能是任意类型，可以...

R语言—随机抽样

W_chuanqi的博客

11-06

5254

其中，x为样本数据， stratanames为分层抽样要使用的变量，size为各层抽取个数，method指的是抽样方法，“srswor”、“srswr”、“poisson”、"systematic"分别指不重置简单抽样、重置简单抽样、泊松抽样、系统抽样，pik指的是各数据包含在样本中的概率，description默认为FALSE,若设置为TRUE则输出样本个数和总体个数。简单随机抽样：从容量为N的总体中，任意抽取n个单位作为样本，使每个可能的样本被抽中的概率相等的一种抽样方式。

R语言中提取数据框子集的10种方法

weixin_48077282的博客

01-09

2924

R语言中提取数据框子集的10种方法构造一个数据框dfx y z1 1 4 52 2 3 63 3 2 74 4 1 8注：复制粘贴运行代码时，千万不要复制每一行代码开头的">"哈访问列方法 1通过矩阵格式访问，根据列索引访问：df[,1]df[,2]df[,3]方法 2通过矩阵格式访问，访问单个元素（以列为单位）：df[[1]]df[[2]]df[[3]]方法 3按列名访问，方法 1:df[“x”]x1 1。

java中栈区、堆区、数据区和代码区

qq_37089829的博客

10-09

717

栈区：主要用来存放局部变量, 传递参数, 存放函数的返回地址。.esp 始终指向栈顶, 栈中的数据越多, esp的值越小。堆区：用于存放动态分配的对象, 当你使用 malloc和new 等进行分配时,所得到的空间就在堆中。动态分配得到的内存区域附带有分配信息, 所以你能够 free和delete它们。数据区：全局，静态和常量是分配在数据区中的，数据区包括bss（未初始化数据区）和初始化数据区。 ...

干货：用R语言进行数据提取的方法！

最新发布

2301_79326510的博客

08-28

1181

本文介绍了如何使用R语言筛选数据框的特定列和行。对于筛选特定行，可以使用逻辑条件、行号或变量名来进行筛选。通过灵活运用这些方法，可以根据自己的需求轻松筛选和操作数据框中的特定列和行。在R语言中，我们经常需要根据特定的条件筛选数据框中的列和行。本文将介绍如何使用R语言对数据框进行筛选操作，并提供相应的源代码示例。要筛选数据框的特定行，我们可以使用逻辑条件、行号或变量名的方式进行操作。要筛选数据框的特定列，可以使用下标或变量名的方式进行操作。除了使用下标，我们还可以使用变量名来筛选特定列。

R语言—数据抽样

niuruijun的博客

03-08

1万+

一.简单随机抽样 sample（） sample（x，size，replace=T/F，prob=NULL） x为待抽取对象，一般以向量形式表示，size为非负整数，表示想要抽取样本的个数，replace表示是为可放回抽样，prob用于设置各抽取样本的抽样概率，默认情况下无取值，即等概率抽样 1.有放回的随机抽样 sample（x,n,replace=T） 2.无放回的随机抽样 size的取...

R语言学习-----访问变量处理数据库子集

babyfaceou的博客

05-29

1378

上集回顾上一节我们学了数据中的载入方式，也就是各种格式的数据放入excel中，然后生成制表符分隔的文本文档，再再RStudio中用read.table(file= , header=TRUE)或者scan(file= , what='c')来读取到R中。访问数据库变量 R不只是可以用来做可视化，也是分析数据处理数据的神兵利器，这样，从原始数据载入到数据分析处理，再到出图呈现归路都在R中...

R 中选取多列并创建子集

u014600308的博客

06-21

4万+

工作找了个DA但是却在干ETL的活，R捡起来一看基本不会用了。赶紧复习复习。1. 使用data.frame>data4=data.frame(data1[,1],data1[,2]> summary(data4) data1...1. data1...2. Min. : 0.00 Min. :0.000 1st Qu.: 0.00 1st ...

精通R语言：数据结构与子集选择

"Advanced R是Hadley Wickham撰写的一本书，专注于深入讲解R语言的数据分析技术。这本书适合已经有一定R语言基础，希望提升至高级水平的读者，旨在帮助读者掌握更高级的编程技巧和数据处理方法。" 在《Advanced R》...