距离方法名称 | 方法特征 |
---|---|
Bray_curtis | 考虑物种有无和物种丰度, 不考虑各物种之间的进化关系或关联信息。 Bray_curtis 和bray_curtis_faith是标准化的曼哈顿距离; 而bray_curtis_magurran是定量的sorensen距离 |
Abund_jaccard | Jaccard距离只考虑物种有无, 而abund_jaccard添加了物种丰度 |
Manhattan/Euclidean | 考虑物种丰度, 但没有考虑各物种之间的相关性。欧氏距离对大的异常值较为敏感,而曼哈顿距离却对异常值不太敏感。 若样本区分不明显,选择欧氏距离,相当于放大异常值, 从而放大区分度。 |
Spearman_approx | 利用两变量的秩次大小作线性相关分析, 具体是将两要素的样本值按数据的大小顺序排列位次, 以各要素样本值的位次代替实际数据而求得的一种统计量。 Spearman对原始变量的分布不作要求, 属于非参数统计方法, 适用范围要广些 |
hellinger | 通过物种在样本中的相对丰度进行距离计算,比绝对丰度更精确 |
Binary_距离 | 算法名称前带有“binary-”的算法为先将OTU表中的数值转换为二进制布尔类型, 再进行计算。 例如“binary_euclidean”算法, 先将OTU表中的数值为零的不变, 大于零的为1, 再进行“euclidean”距离分析。 所有距离只要换算成二进制算法, 均不再考虑物种丰度 |
pearson | 相关系数是衡量随机变量X与Y相关程度的一种方法, 相关系数的取值范围是[-1,1]。相关系数的绝对值越大, 则表明X与Y相关度越高。 当X与Y线性相关时, 相关系数取值为1(正线性相关) 或-1(负线性相关) 。 考虑物种丰度, 适合符合正态分布的样本 |
chisq | 考虑物种丰度。利用列联表分析的方法得到一个卡方统计量来衡量两个体之间的差异性。 卡方统计量越大, 表明个体的选择对变量的取值有显著影响, 这也意味着两个体 之间的差异越大。 稀有物种会对距离产生明显影响, 应先剔除稀有物种后再进行分析 |
gower | 考虑物种丰度, 对数据进行了标准化, 减小异常值的影响 |
kulczynski | 考虑到两样本间物种丰度,及共有和独有物种的丰度 |
morisita_horn | 考虑物种相对丰度 |
soergel | 考虑物种丰度 |
specprof | 考虑物种相对丰度 |
Canberra | 考虑物种丰度, 但没有考虑各物种之间的相关性。 受异常值的影响较小,使其适合应用于具有高度偏斜或含异常值的数据 |