LEfSe的作用
在介绍LEfSe的作用前,我们先解释一个概念——biomarker,维基百科给出的定义是
A bio-marker, or biological marker is a measurable indicator of some biological state or condition. Biomarkers are often measured and evaluated to examine normal biological processes, pathogenic processes, or pharmacologic responses to a therapeutic intervention.
用我们搞数据的人能理解的话讲,biomarker就是非常强力的用来分类的特征,它可以是基因、细胞或者物种分类单元等。比如(瞎编的例子,不能当真)某个研究团队发现脚气会影响中央后回位于Sylvian Fissure附近的区域,从而影响舌头的知觉,于是这个团队打算进一步研究脚气怎么通过肠脑轴影响舌头的知觉,他们随机调查了一批志愿者,记录了志愿者的一些demographic information以及病理信息,并记录了他们肠道菌群的物种分类信息与物种丰度,于是他们有了一张数据表:
Group | 有脚气 | 无脚气 |
---|---|---|
界.门.纲.目.科.属1 | 丰度 | 丰度 |
界.门.纲.目.科.属2 | 丰度 | 丰度 |
。。。 |
他们想知道哪个属的细菌的丰度在有脚气与无脚气的志愿者之间是存在显著差异的,这个时候就需要LDA Effect Size分析了。
也就是说LDA Effect Size分析的作用是发现不同group之间存在显著差异的biomarker。下面我们介绍LDA Effect Size分析的原理。
LEfSe的原理
首先我们写出数据,用 i i i表示第 i i i个志愿者, i = 1 , 2 , ⋯ , n i=1,2,\cdots,n i=1,2,⋯,n,用 y i y_i yi表示第 i i i个志愿者所在的group, y i ∈ { 1 , 2 , ⋯ , K } y_i \in \{1,2,\cdots,K\} yi∈{
1,2,⋯,K} (比如讨论有无脚气时 K = 2 K=2 K=2,我们可以用 y i = 1 y_i=1 yi=1表示志愿者 i i i有脚气,用 y i = 2 y_i=2 yi=2表示志愿者 i i i无脚气),用 x i x_i xi表示第 i i i个志愿者的肠道菌群物种分类信息,
x i = ( x i 1 , ⋯ , x i M ) T x_i = (x_{i1},\cdots,x_{iM})^T xi=(xi1,⋯,xiM)T
比如 x i 1 x_{i1} xi1可以表示是Bacteroidaceae(拟杆菌科)、 x i 2 x_{i2}