生态统计学里的数据转化与标准化

写在前面:

我们组去年发表的一篇文章,很幸运的得到了国内同行的“指点” 。仔细阅读檄文以后,深感统计学的思维和理念在生态学里的重要性,而写文章的同行跟我们的理解可能存在出入。认真回复的过程中,对于统计学有了更深入的一点认识,感谢同行。为帮助记忆,在此稍作整理和记录,以自勉。也希望能够稍微助力统计学入门的小伙伴们。有不当之处,更希望精通统计学的小伙伴们多多指正。


文献里经常会看到,对环境因子做log(x+1)转化,或者对丰度数据做了平方根(square root)转化。做这些转化主要有如下几个目的:提高不同单位变量的可比性;提高变量的正态性和方差齐性;变非线性关系为线性关系;改变变量或者对象的权重等。之所以要考虑这些,是因为很多分析方法,尤其是基于线性相关的分析方法,希望数据有比较好的正态分布(图1左)。但是,实际上,很多数据不一定符合正态分布,而经过一定的转化,比如log转化以后的数值,可能就接近于正态分布,也就是所谓的log正态(图1右,转化后可变为正态分布)。

图1. 左侧为正态分布,右侧为log正态分布

数据转化是针对数值本身的一个处理,而标准化则是针对数值之间的处理。标准化相当于将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到。去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。

数据转化的方法非常多,常用的主要有三种,分别是log转化、平方根转化和弦转化。log转化应该是目前使用最多的,计算方式为x’=log(x+c)。x为原始值,x’为转化后的值,c为添加的常数。log转化可以以10为底数或者以e为底数。理论上,两种方式得到的统计结果应该是一致的。有时候,原始数据是负值或者零,这时候就需要加入常数c。常数的选择目前并没有绝对统一的标准,但每个领域有各自常用的值。比如,生态学的环境因子处理中,常用的值为1。而其他领域也有用0.0001,0.001,10,50,等等(图2)。实际上,常数c的选择对结果影响还是很大的(可以通过一定的计算来筛选最佳c值,图3)。但是,如果实在不会算,或者不想算的话,别人用啥,你就用啥,一般不会错。平方根转化,主要用于计数数据。而弦转化则主要用于比例数据,0~1之间。具体内容,感兴趣的小伙伴们可以在网上自行搜索更多内容。至于,具体如何选择合适的转化方法,《Handbook of Biological Statistics》中给出的建议是:如果数据量足够大,可以比较若干种转化方法,结果正态性比较好的那个,可能比较合适;数据量很小,就老老实实按照前人推荐的方法来做吧

图2. 不同c值的结果比较

图3. 最佳c值的筛选

数据标准化的方法也非常多,常见的两种归一化处理方法是离差标准化 (min-max normalization)和标准差标准化 (zero-mean normalization)。前者是对原始数据进行线性变换,使结果落到0~1区间内。计算方法,x’ = (x-min)/(max-min)。后者 (z-score转化) 则是将数据处理成为正态分布,即均值为0,标准差为1。计算方法,x’ = (x-u)/σ,其中u为所有样本数据的均值,σ为所有样本数据的标准差。z-score转化在生态学相关的文献里经常会见到(图4)。


图4. z-score转化后的热度图

参考文献:

Borcard, D., Gillet, F., Legendre, P. (2011). Numerical Ecology with R. Springer.

Ekwaru, J. P., Veugelers, P. J.(2018). The overlooked importance of constants added in log transformation of independent variables with zero values: A proposed approach for determining an optimal constant. Statistics in Biopharmaceutical Research, 10(1), 26-29.

Filzmoser, P., Hron, K., Reimann,C. (2009). Univariate statistical analysis of environmental (compositional) data: problems and possibilities. Science of the Total Environment, 407(23), 6100-6108.

Limpert, E., Stahel, W. A., Abbt, M. (2001). Log-normal distributions across the sciences: keys and clues.AIBS Bulletin, 51(5), 341-352.

McDonald, J. H. (2014). Handbook of biological statistics (3rd edition). Baltimore, MD: Sparky House Publishing.

O’hara, R.B., Kotze, D. J. (2010). Do not log-transform count data. Methods in Ecology and Evolution, 1(2), 118-122.

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外2600+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值