宏基因组笔记(第二章)

一直以来,看到这本书《Statistical Analysis of Microbiome Data with R》活跃在朋友圈和公众号,既然口碑这么好,当然有必要学习下啦!分享记录一下书中我所认为重要的点。下面是这本书的第二章:

什么是微生物组数据

2.1 测序

16S或者宏基因组测序后,数据使用Qiime或Mothur,比对或者denovo聚类生成OTU表格,注释获得物种分类表,以及相对丰度。

2.2 数据结构

是结构化的进化树,系统发生关系和进化。样本(行)-特征(列)偶发表,特征可以是OTU、基因 、物种分类或者序列变异的表。

2.3 特征

  • 重复、样本、个体、对象、描述或者生态采样点-物种、OTU等丰度矩阵。
  • 过度分散的,这是因为:1)DNA/RNA测序的测序文库大小差别很大;2)变化幅度超过多元回归的预测,如泊松,第11章,我们采用R包来处理这些。

2.4 稀疏多0矩阵

  • 稀疏多0,在一些样本中许多物种分类或OTU都是缺失的。1)样本的0,又称0计数,可能是取样问题;2)结构的0,真0,绝对0,也就是真的没有;3)约等于0,不是真的0,而是低于噪声误差。
  • 0的来源,1)测序假阳性,测序深度的差别;2)一个给定组分,发生率低,测序总深度也低时;3)数据处理时,转换成相对丰度时,比对和标准化的影响。

2.5 挑战

以上的这些数据特点为研究者带来了各种挑战。包含统计学上的挑战,还有:

  • 1)如何组织成进化树;
  • 2)如何减少数据的维度,以及p值过大和n值过小;
  • 3)如何处理罕见物种(OTU);
  • 4)如何对过度分散、稀疏多0矩阵进行建模。例如人的肠道微生物研究就面临类似的问题。

分散性是16S数据处理的一个主要挑战:

  • 对精确参数估计的模型来说是一个难题,甚至是不可能实现的任务。例如,由于太多0的存在,物种(OTU)的分布会很混乱,而且没办法使用标准的模型进行分析。
  • 多0也让非参数模型失效,非参模型主要基于秩或者中位数,所以也没法用。

过多0的解决失败会导致偏好性的参数估计和误导结论。

2.6总结

在本章,我们观察和总结了微生物组数据的特点,我们了解了它们长什么样。微生物组数据是组成性的,高维度的,不明确的,过度分散和多0的。这些特点对数据分析造成很大挑战,让参数和非参模型均失效。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值