R语言删除重复值

最新推荐文章于 2024-08-10 04:01:36 发布

zmlsh

最新推荐文章于 2024-08-10 04:01:36 发布

阅读量1w

点赞数 3

分类专栏： R语言文章标签： r语言

R语言专栏收录该内容

9 篇文章 2 订阅

订阅专栏

最近手头下了一批数据，想要删除其中的重复值，比如：

> data.set

Ensembl.Gene.ID Gene.Biotype Chromosome.Name Gene.Start..bp. Gene.End..bp.

1 ENSG00000236666 antisense 22 16274560 16278602

2 ENSG00000236666 antisense 22 16274560 16278602

3 ENSG00000234381 pseudogene 22 16333633 16342783

4 ENSG00000234381 pseudogene 22 16333633 16342783

5 ENSG00000234381 pseudogene 22 16333633 16342783

6 ENSG00000234381 pseudogene 22 16333633 16342783

7 ENSG00000234381 pseudogene 22 16333633 16342783

8 ENSG00000234381 pseudogene 22 16333633 16342783

9 ENSG00000234381 pseudogene 22 16333633 16342783

10 ENSG00000224435 pseudogene 22 16345912 16355362

在这个数据中，Ensembl.Gene.ID中只有三个值，其余都是重复值，现在想要根据Ensembl.Gene.ID列重新生成数据，如：

> data.set2

Ensembl.Gene.ID Gene.Biotype Chromosome.Name Gene.Start..bp. Gene.End..bp.

1 ENSG00000236666 antisense 22 16274560 16278602

3 ENSG00000234381 pseudogene 22 16333633 16342783

10 ENSG00000224435 pseudogene 22 16345912 16355362

那么，在进行这个数据处理的时候也想过用excel来解决，但是excel毕竟有他的局限性，不能处理大批量的数据，所以还是想能够用R语言来处理这批数据。

在网上以及几本主要的R语言书籍中都找了下，没有发现有效的处理办法。

如：http://cos.name/cn/topic/7621

但是获取了一个比较好的解决思路：用duplicated函数。

duplicated函数是一个可以用来解决向量或者数据框重复值的函数，它会返回一个TRUE和FALSE的向量，以标注该索引所对应的值是否是前面数据所重复的值。

那么我们还是以文中开头提到的数据data.set为例来说明解决办法：

1、建立是否重复索引；

> index<-duplicated(data.set$Ensembl.Gene.ID)

> index

[1] FALSE TRUE FALSE TRUE TRUE TRUE TRUE TRUE TRUE FALSE

2、生成新数据

那么到了这一步，应该是很多R语言爱好者都能够处理的问题了，但是我们会发现，我们要的那一行的值是FALSE，所以在后面我们用!来取反：

> data.set2<-data.set[!index,]

> data.set2

Ensembl.Gene.ID Gene.Biotype Chromosome.Name Gene.Start..bp. Gene.End..bp.

1 ENSG00000236666 antisense 22 16274560 16278602

3 ENSG00000234381 pseudogene 22 16333633 16342783

10 ENSG00000224435 pseudogene 22 16345912 16355362

这样我们就大功告成了。

关注

3
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。