[数据分析] [保姆级教程] 数据差异分析方法

最新推荐文章于 2025-02-24 15:31:37 发布

Dennis-Ning

最新推荐文章于 2025-02-24 15:31:37 发布

阅读量1w

点赞数 8

分类专栏：数据分析文章标签：概率论数据分析统计学

本文链接：https://blog.csdn.net/weixin_45456178/article/details/117449495

版权

数据分析专栏收录该内容

2 篇文章

订阅专栏

当比较两组数据是否差异显著时，可用参数检验和非参数检验。因为参数检验会更加准确，所以一般会先用参数检验。不同的参数检验方法有不同的要求，如果不满足要求，可以对数据进行转换，如果转换后也无法达到要求，再用非参数检验。

              数据检验方法无脑选择流程图

在这里插入图片描述

1. 参数检验

参数检验数据都要满足正态分布或近似正态分布

1.1 数据处理
1.1.1 检验数据是否符合正态分布
由于参数检验都要求数据符合正态分布，所以检查数据是否符合。常用的检测方法有两种，KS-检验和 SW-检验。如果检验结果 P 值大于 0.05，则数据符合正态分布。

参考链接： https://blog.csdn.net/weixin_39796839/article/details/111089672

以下用 python 进行举例，也可用 spss 软件分析
大样本量（>50）用 KS-检验（Kolmogorov-Smirnov test）

# 检验一组数据是否符合正态分布
from scipy.stats import kstest
import numpy as np
 
x = np.random.normal(0,1,1000)
test_stat = kstest(x, 'norm')
# >>> test_stat
#(0.021080234718821145, 0.76584491300591395)
# p 值 = 0.765 > 0.05 , 符合正态分布
# 如果 p 值小于 0.05 则不符合正态分布

小样本量(3-50)用 SW-检验（Shapiro—Wilk test）

# 检验一组数据是否符合正态分布
from scipy.stats import shapiro
import numpy as np
x = np.array([4,8,15,7,15])
test_stat_sw = shapiro(x)
test_stat_sw
# >>> test_stat
# (0.8645032644271851, 0.24487225711345673)
# p 值 = 0.244 > 0.05 , 符合正态分布
# 如果 p 值小于 0.05 则不符合正态分布

1.1.2 数据转化为正态分布的方法及适用数据
如果数据经过正态检验后不符合，就需要对数据进行转换，使之符合正态分布。转换完成后就可以按照需求挑选检验方法。

参考链接： https://blog.csdn.net/zhouxuechao/article/details/114290696