R语言中按照数据中的顺序进行筛选和排序

最新推荐文章于 2023-08-27 06:09:58 发布

育种数据分析之放飞自我

最新推荐文章于 2023-08-27 06:09:58 发布

阅读量8.7k

点赞数 3

分类专栏： R语言

互秀朋友圈呀, 微信: yijiaobani, 备注: 姓名+ 单位

本文链接：https://blog.csdn.net/yijiaobani/article/details/107765846

版权

R语言专栏收录该内容

151 篇文章

订阅专栏

本文通过对比%in%和match函数在数据提取中的应用，详细解释了如何利用R语言中的match函数来准确地根据指定顺序从一个数据框中提取数据。并通过一个具体案例，展示了当数据框中的ID顺序不一致时，match函数能够有效避免排序错误，确保数据的正确提取。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目的

这里有两个数据框，两者有相同的列（ID），这里想把第一个数据框，按照第二个数据框的ID列进行提取，顺序和第二个数据框一致。

数据框1

> tt = data.frame(id = 1:10,y = rnorm(10))
> tt
   id          y
1   1  0.7264999
2   2 -1.3817018
3   3 -0.8626703
4   4  2.0663756
5   5  0.1997253
6   6  0.5968497
7   7 -0.8836847
8   8  2.2224643
9   9 -1.5825250
10 10 -0.1530456

数据框2

> id = data.frame(id = c(2,1,5,4,3))
> id
  id
1  2
2  1
3  5
4  4
5  3

错误的方法：用`%in%`进行提取，会自动排序

> # 使用 %in% 进行匹配时，会自动排序，不是id的顺序
> tt[tt$id %in% id$id,]
  id          y
1  1  0.7264999
2  2 -1.3817018
3  3 -0.8626703
4  4  2.0663756
5  5  0.1997253
> id
  id
1  2
2  1
3  5
4  4
5  3

可以看到，匹配后的顺序为1,2,3,4,5，而不是原来的2,1,5,4,3

正确的方法：用match记录位置，然后根据位置提取

> # 使用match可以达到目的
> loc = match(id$id,tt$id)
> loc
[1] 2 1 5 4 3
> tt[loc,]
  id          y
2  2 -1.3817018
1  1  0.7264999
5  5  0.1997253
4  4  2.0663756
3  3 -0.8626703

结论：`match`真香

完整代码：

# 模拟两个数据框
tt = data.frame(id = 1:10,y = rnorm(10))
tt
id = data.frame(id = c(2,1,5,4,3))
id

# 使用 %in% 进行匹配时，会自动排序，不是id的顺序
tt[tt$id %in% id$id,]
id

# 使用match可以达到目的
loc = match(id$id,tt$id)
loc
tt[loc,]