为什么t检验要满足正态?

因为t检验本质上是一种参数检验,是均值的比较。当我们进行t检验进行假设检验时都会使用以下假设:H0:两组之间的均值相等 ;H1:两组之间的均值不等 。t检验其实仅仅是对两组之间的均值进行了比较,但是为啥呢,正态分布不是有俩参数嘛——均值、标准差,为啥比一个均数就能说两样本代表的总体之间是否存在差异呢?我们发现t检验的前提条件除了要求数据来自正态分布总体外,还要求两样本总体方差相等,即具有方差齐性。举个栗子,看图说话:如果不要求满足正态分布,那么如下图,正态分布和指数分布比,比均数比个锤子,均数没有差异也没有任何意义,两总体之间肯定存在差异。再举个栗子,如果不要求方差齐,仅仅均值没差异也是没有意义的,你能说这两组没差异吗。我们可以发现,t检验的前提要求,限制了总体的其他参数,只剩下了均值来决定总体的分布,因此t检验时2个样本均值的比较才有意义。t检验然而,这不是说我们所比较的总体必须要是正态分布,因为我们所比较的是平均值。不论从那种分布抽取的样本所得的平均值,只要样本数量越多(n>50),平均值的分布都会越倾向为正态的,这就是所谓的中心极限定理。所以,我们要搞清楚的是,要满足正态分布的,不是总体的分布,而是平均值的分布。我们的六西格玛绿带课程中,有一些制作得很生动的动画,会解释得更清楚。

作者:五弦三品
链接:https://www.zhihu.com/question/397871872/answer/1250967307
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

### 皮尔逊相关系数与检验的原因 在数据分析统计学领域,皮尔逊相关系数用于衡量两个连续变量之间的线性关联强度。然而,在应用此指标之前,需确认数据是否符合特定前提条件之一即正态分布特性。 对于皮尔逊相关系数而言,其有效性依赖于所分析的数据集遵循双变量正态分布这一假设[^3]。这意味着不仅单个变量应呈现近似钟形曲线形,而且两者的联合概率密度函数也应在二维空间内形成椭圆形轮廓。当这些条件得到满足时,通过计算得出的相关系数能够更准确反映实际存在的线性关系程度;反之,则可能导致偏差估计或错误结论。 此外,为了进一步验证所得出的皮尔逊相关系数是否具有统计意义而非随机波动所致,常采用t检验来评估该系数是否显著不同于零。而t检验本身建立在一个重要假定之上——样本来自总体。因此,确保原始观测值接近正态分布有助于提高后续推断过程中的可靠性[^2]。 综上所述,执行检验成为运用皮尔逊相关系数不可或缺的一环,旨在保障研究结果的有效性和科学严谨性。 ```python import numpy as np from scipy import stats # 示例:生成一组模拟数据并测试其性 np.random.seed(0) data_x = np.random.normal(loc=5, scale=2, size=100) statistic, p_value = stats.shapiro(data_x) print(f"Shapiro-Wilk Test Statistic: {statistic:.4f}, P-value: {p_value:.4f}") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值