使用featureCounts进行定量分析

欢迎关注”生信修炼手册”!

featuresCounts软件用于统计基因/转录本上mapping的reads数,也就是用于raw count定量。该软件不仅支持基因/转录本的定量,也支持exon, gene bodies, genomic bins, chromsomal locations等区间的定量。

官网如下

http://bioinf.wehi.edu.au/featureCounts/

featureCounts集成在subreads 软件中, 类似 word 和 office 的关系, subreads 这个软件也有对应的 R包Rsubreads

featureCounts 需要两个输入文件:

  1. 比对产生的BAM/ SAM文件

  2. 区间注释文件

对于区间文件而言,支持以下两种格式

  1. GTF 格式

  2. SAF 格式

GTF格式在之前的文章中详细介绍过,这里看下SAF格式,示例如下

GeneID    Chr    Start    End    Strand
497097    chr1    3204563    3207049    -
497097    chr1    3411783    3411982    -
497097    chr1    3660633    3661579    -

就是\t分隔的5列文件,记录了基因的染色体上的区间和正负链信息。

在featureCounts 软件中,有两个核心概念:

  1. feature

  2. metafeature

feature指的是基因组区间的最小单位,比如exon; 而metafeature可以看做是许多的feature构成的区间,比如属于同一个gene的外显子的组合。

在定量的时候,支持对单个feature 定量(对外显子定量), 也支持对meta-feature 进行定量(对基因进行定量)。

当reads 比对到2个或者以上的features 时,默认情况下,featureCounts在统计时会忽略到这部分reads, 如果你想要统计上这部分reads, 可以添加-O 参数,此时一条reads 比对到多个feature, 每个feature 定量时,都会加1,对于meta-features 来说,如果比对到多个features 属于同一个 meta-features(比如一条reads比对到了exon, 但这些exon 属于同一个gene), 则对于这个gene 而言,只会计数1次。

总之,不管对于feature 还是meta-feature, 只有比对多个不同的区间时,才会分别计数。

features 支持对单个样本定量,还支持对多个样本进行归一化。单个样本定量的用法如下

featureCounts 
-T 5  \ 
-t exon \ 
-g gene_id \
-a annotation.gtf \
-o counts.txt \
mapping.sam

多个样本归一化的用法如下

featureCounts \
-t exon \
-g gene_id \
-a annotation.gtf \
-o counts.txt \
 library1.bam library2.bam library3.bam

-a参数指定的区间注释文件,默认是gtf格式;-T参数指定线程数,默认是1;-t参数指定想要统计的feature的名称,取值范围是gtf 文件中的第3列的值,默认是exon;-g参数  指定想要统计的meta-feature的名称,取值范围参考gtf第9列注释信息,gtf的第9列为key=value的格式,-g参数可能的取值就是所有的key, 默认值是gene_id。

输出的表达量文件内容示意如下

# Program:featureCounts v1.6.0; Command:"./featureCounts" "-T" "20" "-t" "exon" "-g" "gene_id" "-a" "hg19.gtf" "-o" "gene" "accepted_hits.bam"
Geneid Chr Start End Strand Length accepted_hits.bam
DDX11L1 chr1;chr1;chr1 11874;12613;13221 12227;12721;14409 +;+;+ 1652 0

#号开头的注释行,记录了运行的命令;Geneid开头的行是表头,Geneid代表统计的meta-features的名称,Chr,Start,End对应染色体上的位置,Strand代表正负链,由于一个基因有多个外显子构成,所以这里的染色体位置信息有多个,和外显子个数一一对应。

Length 该区间的长度,最后一列的表头是你的输入文件的名称,代表的是这个meta-feature的表达量。

这个软件最大的特点就是运行速度非常快,几分钟就可以运行完一个样本的定量。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

  • 3
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
featurecounts 是一个用于计算基因或转录本在高通量测序数据中的映射reads数目的工具。它可以帮助分析人员快速而准确地统计每个基因在样本中的表达水平,并提供详细的计数统计结果。 使用 featurecounts,首先需要准备好测序数据的比对结果文件(通常是BAM格式),以及基因或转录本的注释文件(GTF格式)。然后,使用 featurecounts 对比对结果进行计数操作。featurecounts 会根据比对结果和注释文件,将每个read映射到相应的基因或转录本,并计算每个基因或转录本的计数数目。计数结果可以表示为每个基因在每个样本中的计数矩阵。 featurecounts 支持多种计数模式,包括计算所有read的比对位置,计算不重复的read的比对位置,以及计算过滤后的非重复read的比对位置等。这样可以根据具体需要灵活选择合适的计算模式。featurecounts 还支持多种测序平台,包括RNA-seq、chip-seq、miRNA-seq等。 通过 featurecounts 得到的计数结果可以用于后续的差异表达分析、富集分析、聚类分析等。它提供了简单易用的命令行和图形界面,具有高效、准确和可靠的特点,因此被广泛应用于生物学研究中。 总之,featurecounts 是一个功能强大的工具,可以帮助研究人员在高通量测序数据分析中快速、准确地计算基因或转录本的映射reads数目,为后续的功能分析提供重要的基础。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值