1. 为什么要符合正态分布?
有些模型的应用条件就是要求数据满足正态性分布的,比如说:贝叶斯、逻辑回归、KNN、Kmean等设计到概率分布、参数距离比较等,转换为正态分布,模型条件更充足。
其次,正态分布,数据的泛化性高。因为自然界很多事物的概率密度很大是正态分布的。
最后,从目标分布来说,偏态分布会导致label数据的MSE出现误导,或许结果看着很小,但实际结果很大。
2.如何查看数据是否符合正态分布?
判断数据是否服从正态分布的指标:偏度(skewness)和峰度(kurtosis)
3. 如何不符合,该如何调整使数据分布逼近正态分布
(1)如果高度偏态(如Skewness为其标准误差的3倍以上),则可以取对数,其中又可分为自然对数和以10对基数的对数。
(2)如果是中度偏态,偏度为标准差的2-3倍,可以考虑取根号值来转换。