数据预处理2-回归问题某些模型的数据要符合正态分布

最新推荐文章于 2024-06-13 22:45:00 发布

NanciZhao

最新推荐文章于 2024-06-13 22:45:00 发布

阅读量4.8k

点赞数 1

分类专栏：特征工程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yeziyezi1986/article/details/103022313

版权

特征工程专栏收录该内容

9 篇文章 1 订阅

订阅专栏

1. 为什么要符合正态分布？

有些模型的应用条件就是要求数据满足正态性分布的，比如说：贝叶斯、逻辑回归、KNN、Kmean等设计到概率分布、参数距离比较等，转换为正态分布，模型条件更充足。

其次，正态分布，数据的泛化性高。因为自然界很多事物的概率密度很大是正态分布的。

最后，从目标分布来说，偏态分布会导致label数据的MSE出现误导，或许结果看着很小，但实际结果很大。

2.如何查看数据是否符合正态分布？

判断数据是否服从正态分布的指标：偏度(skewness)和峰度(kurtosis)

3. 如何不符合，该如何调整使数据分布逼近正态分布

(1)如果高度偏态（如Skewness为其标准误差的3倍以上），则可以取对数，其中又可分为自然对数和以10对基数的对数。

(2)如果是中度偏态，偏度为标准差的2-3倍，可以考虑取根号值来转换。

关注

1
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
数据预处理2-回归问题某些模型的数据要符合正态分布

1. 为什么要符合正态分布？有些模型的应用条件就是要求数据满足正态性分布的，比如说：贝叶斯、逻辑回归、KNN、Kmean等设计到概率分布、参数距离比较等，转换为正态分布，模型条件更充足。其次，正态分布，数据的泛化性高。因为自然界很多事物的概率密度很大是正态分布的。最后，从目标分布来说，偏态分布会导致label数据的MSE出现误导，或许结果看着很小，但实际结果很大。2.如何查看数据是...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。