MetaVolcanoR 包:对基因差异表达结果进行 meta 分析(多数据集汇总分析)

基因差异表达 meta 分析

在不同生物条件下的基因表达差异分析对揭示决定细胞表型的基因调控程序至关重要。通常,通过将给定条件下的基因表达与参考生物状态进行比较,可以识别出差异表达的基因列表(DEG),这些 DEG 指出了在感兴趣的生物条件下功能相关的基因组功能。尽管单项研究给出的差异分析结果存在大量噪声,但大量存在的公开数据允许结合多项差异表达结果进行汇总估计。像 GEO、SRA、ArrayExpress 和 ENA 这样的组学数据库为大量的转录组数据提供了系统下载许可。许多生物条件存在不止一项基因表达研究,这种冗余可以通过 meta 分析方法来利用,以揭示在给定条件下一致且差异性表达的基因。

MetaVolcanoR 旨在识别在多项研究中一致变化的基因差异表达,通过结合差异基因表达结果,该包实施了三种策略来总结不同研究中的基因表达差异:随机效应模型(REM)方法、投票计数方法和 p 值组合方法。不仅如此,MetaVolcano 提供火山图汇总来可视化基因差异表达 meta 分析结果。

使用示例

1. R包下载与引用

MetaVolcanoR 储存在 BiocManager 库中,用户可以通过以下代码安装:

BiocManager::install("MetaVolcanoR", eval = FALSE)
library(MetaVolcanoR)
library(dplyr)

2. 批量读取差异分析结果

使用如下代码读取目录下 txt 结尾的差异分析结果:

sub <- ".txt" # 文件后缀,示例展示的都是txt
file <- list.files(path = getwd(), pattern = sub)
diffexplist <- lapply(as.list(file), function(x){
  datai <- read.table(x, header = T, sep = "\t")
  return(datai)
})
names(diffexplist) <- gsub(sub, "", file)

示例文件中单个 gse 文件的表头如下所示:

# 示例文件中单个gse文件的表头
head(diffexplist[[1]])
#    Symbol      Log2FC      pvalue       CI.L        CI.R
#1     A1BG -0.70126879 0.000140100 -1.0087857 -0.39375189
#2 A1BG-AS1 -0.25106351 0.008694757 -0.4304790 -0.07164803
#3     A1CF  0.03332573 0.615989488 -0.1036882  0.17033968
#4      A2M  0.83504214 0.018550388  0.1568214  1.51326289
#5    A2ML1  0.03942552 0.843222358 -0.3728473  0.45169836
#6   A4GALT -0.20815882 0.282488068 -0.6025247  0.18620708

3. 进行多数据集差异表达 meta 分析

MetaVolcanoR 包允许汇总多项研究中的 logFC 变化,同时考虑到了方差。在可视化中,用户可以设置 metathr参数用于确定在结果可视化时应该突出显示百分之几的 top 基因。这种排名是根据 topconfects 方法定义的。强烈建议提供 logFC 的方差或 置信区间(可选哈),针对limma差异时confint参数

可视化指定基因的汇总森林图

4. 统计每项研究的差异基因数量

早上好各位老哥

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值