bulk RNA-Seq (3)表达定量

欢迎关注bioinfor 生信云!有一起想做公众号的朋友欢迎联系我!

上一篇推文讲了bulk RNA-Seq 的比对到参考基因组部分,接下来就是基因表达定量了。计算表达定量可以用StringTie、Htseq-cout、featureCounts,这里推荐使用featureCounts。featureCounts 是Rsubread 软件包里的一个命令,所以安装R版本Rsubread的即可。这里使用了一个脚本,在运行featureCounts 的同时,计算FPKM、TPM。

安装相关的R包

if(!requireNamespace("BiocManager", quietly = TURE))
    install.packages("BiocManager")
BiocManager::install("Rsubread")
BiocManager::install("limma")
BiocManager::install("edgeR")

featureCounts.R

#  Create a parser
p <- arg_parser("run featureCounts and calculate FPKM/TPM")

# Add command line arguments
p <- add_argument(p, "--bam", help="input: bam file", type="character")
p <- add_argument(p, "--gtf", help="input: gtf file", type="character")
p <- add_argument(p, "--output", help="output prefix", type="character")

# Parse the command line arguments
argv <- parse_args(p)

library(Rsubread)
library(limma)
library(edgeR)

bamFile <- argv$bam
gtfFile <- argv$gtf
nthreads <- 1
outFilePref <- argv$output

outStatsFilePath  <- paste(outFilePref, '.log',  sep = '');
outCountsFilePath <- paste(outFilePref, '.count', sep = '');

fCountsList = featureCounts(bamFile, annot.ext=gtfFile, isGTFAnnotationFile=TRUE, nthreads=nthreads, isPairedEnd=TRUE)
dgeList = DGEList(counts=fCountsList$counts, genes=fCountsList$annotation)
fpkm = rpkm(dgeList, dgeList$genes$Length)
tpm = exp(log(fpkm) - log(sum(fpkm)) + log(1e6))

write.table(fCountsList$stat, outStatsFilePath, sep="\t", col.names=FALSE, row.names=FALSE, quote=FALSE)

脚本用法

输入:bam文件,gtf文件

结果输出

.count结尾的表达定量文件

.log结尾的日志文件

Assigned        17323283  #基因结构上的reads
Unassigned_Unmapped     2909094  #未比对上的reads
Unassigned_Read_Type    0
Unassigned_Singleton    0
Unassigned_MappingQuality       0
Unassigned_Chimera      0
Unassigned_FragmentLength       0
Unassigned_Duplicate    0
Unassigned_MultiMapping 0
Unassigned_Secondary    0
Unassigned_NonSplit     0
Unassigned_NoFeatures   408001  #未落在基因结构上
Unassigned_Overlapping_Length   0
Unassigned_Ambiguity    1180806  #无法确定分配到哪个基因

喜欢就点点赞哟

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
当然!下面是一个简单的 bulk RNA-seq 教程,帮助您了解如何进行 bulk RNA-seq 实验和分析。 步骤1:实验设计 - 确定您的研究目的和问题。 - 选择适当的生物样本和处理组。 - 设计实验,包括处理组和对照组,并考虑技术重复。 步骤2:样本准备和RNA提取 - 从每个样本中收集细胞或组织。 - 使用RNA提取试剂盒从细胞或组织中提取总RNA。 - 在提取过程中,确保避免RNA降解。 步骤3:文库制备 - 使用RNA-seq试剂盒对总RNA进行磷酸化、逆转录和扩增。 - 为了减少批次效应,可以使用技术重复。 步骤4:高通测序 - 将文库加载到Illumina或其他高通测序平台上。 - 运行测序,生成原始测序数据。 步骤5:质控制和数据预处理 - 对原始测序数据进行质控制,包括去除低质读取和去除接头序列。 - 使用软件(如FastQC)评估数据质,并根据需要进行修剪或过滤。 步骤6:基因表达分析 - 将修剪后的测序数据与参考基因组比对。 - 使用软件(如HISAT2或STAR)进行比对,并生成比对文件(如BAM格式)。 - 使用软件(如HTSeq或featureCounts)计算基因的表达值。 步骤7:差异表达分析 - 使用统计学方法(如DESeq2或edgeR)来识别在处理组和对照组之间差异表达的基因。 - 设置合适的阈值来确定差异表达基因。 - 对差异表达基因进行进一步的功能注释和通路分析。 步骤8:结果解释和验证 - 从差异表达基因列表中选择感兴趣的基因进行验证。 - 使用定量PCR、免疫印迹等技术验证RNA-seq结果。 这只是一个 bulk RNA-seq 教程的概述,每个步骤都还有很多具体细节和方法可以选择。希望这对您有所帮助!如果您有任何进一步的问题,请随时提问。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Bioinfor 生信云

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值