Linux的RNA-seq分析(stringtie-FPKM和HTseq计数)

一、stringtie计算基因和转录本的FPKM

1.1转录组组装

#确认安装了stringtie
#确认产生了排序的bam文件,sorted.bam
#提前安装prepDE.py,可以对stringtie输出文件进行定量
 wget http://ccb.jhu.edu/software/stringtie/dl/prepDE.py3
 将prepDE.py3放入./home/lumino/tool

#1.转录本组装
#在./SRR3418005/FPKM文件夹中输出转录本组装结果
 mkdir ./SRR3418005/FPKM
#转录本组装,这里关注新转录本,使用之前merged.gtf
stringtie -e -p 8 -G ./stringtie-merged.gtf.gtf -A ./SRR3418005/FPKM/SRR3418005.gene.gtf -o ./SRR3418005/FPKM/SRR3418005.transcripts.gtf ./SRR3418005.sorted.bam
  • -e:这个选项告诉 stringtie 不仅要输出组装得到的转录本,还要输出那些表达量较低、可能不被认为是完整转录本的“额外”转录本片段。这有助于捕获那些可能只部分被测序覆盖的转录本区域。

  • -p 8:这个选项指定了 stringtie 在执行时应使用的线程数。在这里,-p 8 表示使用两个线程,这可以加速计算过程,特别是在处理大型数据集时。

  • -G ./stringtie-merged.gtf:这里 stringtie-merged.gtf,是所有样本转录本组装并整合的gtf。这个文件包含了所有样本的基因和转录本的结构信息。如果不关注新转录本,可以使用基因组注释文件tair10.gtf

  • -A SRR3418005.gene.gtf:这个选项指定了一个输出文件的路径和名称,该文件将包含基于转录本组装结果推导出的基因级别的丰度信息。在这里,输出文件名为 SRR3418005.gene.gtf

  • -o /SRR3418005/FPKM/SRR3418005.transcripts.gtf

### RNA-seq 数据表达量原始计数的处理方法 #### 一、概述 RNA-seq技术通过高通量测序来量化基因表达水平,其核心在于将测序读段映射回参考基因组并统计各转录本上的读段数目作为表达量的度量标准[^1]。 #### 二、具体流程 对于获得的RNA-seq数据,在完成质量控制(QC)后,通常采用如下方式来进行表达量计算: - **比对阶段** 使用支持剪接受体识别的软件如STAR或HISAT2进行读段与参考基因组之间的比对操作。这类工具能够有效地处理跨越多个外显子边界的复杂情况,从而提高后续定量准确性[^2]。 - **特征分配** 经过预处理后的BAM文件会被送入专门用于评估基因/转录本层面丰度的应用程序中进一步解析。FeatureCounts是一个广泛使用的命令行工具,它可以高效地汇总落在指定GTF定义区间内的唯一匹配read count;而RSEM除了提供相似功能之外还允许估计FPKM(TPM),即每百万片段中的预期分子数(转换为每千碱基)。 ```bash featureCounts -a annotation.gtf -o output.txt aligned_reads.bam ``` - **批效应校正及其他标准化措施** 实验设计往往引入批次差异等因素干扰最终结论的真实性。Combat算法能较好消除此类偏差影响。另外,为了使不同样本间具有可比性,还需要实施诸如CPM (counts per million mapped reads) 或者 TMM(trimmed mean of M-values)这样的规模因子调整策略。 ```r library(edgeR) cpm_matrix <- cpm(counts, normalized.lib.sizes=TRUE) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值