使用aPCoA包实现校正协变量的主坐标分析(aPCoA)以排除混杂协变量的影响
主坐标分析(PCoA)广泛用于生态学和微生物学等领域,以描述样本之间的差异,例如群落的beta多样性等。然而混杂的协变量可能会使与感兴趣的科学问题相关的模式难以观察。例如,在一项关于饮食习惯对肠道微生物组影响的研究中,如果从两个不同的地点招募受试者,地点的差异可能会掩盖饮食习惯的差异,对结果判断产生干扰。
为解决这个问题,Shi等(2020)开发了一种称为校正主坐标分析(adjusted principal coordinates analysis,aPCoA)的方法,允许在PCoA中校正协变量以排除其影响。aPCoA可使用aPCoA包来实现,以下简单举例介绍。
示例数据集
aPCoA包内置数据集“Tasmania”,研究了蟹类干扰对56种小型底栖动物的影响。研究中包含4个调查区域,每个区域由2个受蟹类干扰和2个未受蟹类干扰的区域组成。即共计获得16次观测数据,8次对应蟹类干扰,8次无蟹类干扰。
library(vegan)
library(aPCoA)
#内置数据集 Tasmania,详情 ?Tasmania
data(Tasmania)
Tasmania$abund #56 种小型底栖动物(列)在 16 次观测(行)中的丰度
Tasmania$treatment #是否受到蟹类的干扰,是(Disturbed),否(Undisturbed),因子类型
Tasmania$block #4 个调查区域,因子类型
执行aPCoA以及与PCoA的比较
期望比较受干扰组和未受干扰组之间的小型底栖动物群落组成是否存在明显的差异。在这里,分别使用PCoA和aPCoA对群落进行排序,以进行方法上的比较。
#计算群落相异指数,以 Bray-curtis 距离为例
bray <- vegdist(Tasmania$abund, method = 'bray')
#分组和协变量数据
data <- data.frame(treatment = Tasmania$treatment,block = Tasmania$block)
rownames(data) <- rownames(as.matrix(bray))
#执行 aPCoA 校正混杂协变量以显示 PCoA 图中主要协变量的影响,详情 ?aPCoA
#本示例中,“bray~block”意为在对群落数据进行 PCoA 时消除由位置(调查区域)带来的影响,“maincov=treatment”在作图时按试验类型分组着色
opar <- par(mfrow = c(1, 2),
mar = c(3.1, 3.1, 3.1, 5.1),
mgp = c(2, 0.5, 0),
oma = c(0, 0, 0, 4))
result <- aPCoA(bray~block, data, maincov = treatment)
par(opar)
#提取 aPCoA 中的样本得分
aPCoA.score <- data.frame(result$plotMatrix)
#输出
#write.table(aPCoA.score, 'aPCoA.score.txt', sep = '\t', quote = FALSE, col.names = NA)
结果中显示了两个PCoA图,左图是原始的PCoA,右图是校正协变量后的aPCoA。可以看到,使用aPCoA去除位置的影响后,受干扰组和未受干扰组之间的差异变得更加突出。
参考文献
Shi Y, Zhang L, Do K A, et al. aPCoA: covariate adjusted principal coordinates analysis. Bioinformatics, 2020, 36(13): 4099-4101.
友情链接
相似性或相异度量
↑包括Jaccard相似性/相异度、Sørensen相似性/相异度、Simpson相似性/相异度、欧式距离、弦距离、Hellinger距离、卡方距离、Bray-curtis距离、Unifrac距离等,这些相似或相异指数是对多变量数据矩阵进行降维的大多数方法的基础
非约束排序
单矩阵特征的描述性统计方法,包括基于特征分解的降维方法(PCA、CA等)和基于相异度量的降维方法(PCoA、NMDS等)
主成分分析(PCA)(常规PCA)
混合数据的PCA(处理同时包含数值和分类变量)
模糊主成分分析(FPCA)(处理缺失值)
对应分析(CA)(常规CA)
去趋势对应分析(DCA)(消除CA的弓形效应)
多重对应分析(MCA)(处理分类变量)
模糊对应分析(FCA)(处理缺失值)
约束排序
或称典范排序,两个或多个矩阵的回归模型或相关性分析
冗余分析(RDA)和典范对应分析(CCA),多元线性回归(MLR)和非约束排序(PCA、CA、PCoA等)的结合,群落分析中的经典方法
基于距离的冗余分析(db-RDA),或称典范主坐标分析(CAP)
判别分析(DA),一种结合降维思想的分类器
↑包括线性判别分析(LDA)、二次判别分析(QDA)、混合判别分析(MDA)、弹性判别分析(FDA)、正则化判别分析(RDA)等
基于相异度量分析两个矩阵的相关性
转自生信小白鱼,原文链接:https://mp.weixin.qq.com/s/OjcrmJa69_4JBNVnwDklsQ
猜你喜欢
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑
文献阅读 热心肠 SemanticScholar Geenmedical
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
点击阅读原文,跳转最新文章目录阅读