关于t分布

本文深入探讨了t分布的定义、特征及统计学应用。介绍了t分布的起源,即由William Sealy Gosset发明用于评估酒品质的t检验。阐述了t分布的定义、概率密度函数及其与正态分布的关系。讨论了t分布的特征,如均值为0,方差随自由度变化,以及图形随自由度增加趋于正态分布的趋势。最后,详细解析了t分布在统计学上的应用,包括上∝分位数概念、抽样分布定理及t检验在单个和两个正态总体的抽样分布中的运用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

上一篇文章提及了卡方分布,本文接着介绍另一类重要的抽样分布–t分布。
简单说一下背景,“t”,是Fisher为之取的名字。Fisher最早将这一分布命名为“Student’s distribution”,并以“t”为之标记。Student,则是William Sealy Gosset(戈塞特)的笔名。他当年在爱尔兰都柏林的一家酒厂工作,设计了一种后来被称为t检验的方法来评价酒的质量。因为行业机密,酒厂不允许他的工作内容外泄,所以当他后来将其发表到至今仍十分著名的一本杂志《Biometrika》时,就署了student的笔名。所以现在很多人知道student,知道t,却不知道Gosset。
一、t分布的定义:
设随机变量X~ N(0,1),Y~x^2 (n)(自由度为n的卡方分布),且X与Y相互独立,则称随机变量
在这里插入图片描述
服从自由度为n的t分布。
t分布的概率密度函数为:
在这里插入图片描述
特别的,n=1时,t分布就是柯西分布(柯西分布:无期望,无方差):
在这里插入图片描述
当n→∞时,t分布就是标准正态分布。(均值为0,方差为1):
在这里插入图片描述
二、t分布的特征:
一般来看,t分布只有一个参数,就是自由度,那么如何从这个参数来理解分布的特征呢?
首先,t分布是关于Y轴对称的,故t分布的均值为0;
其次,t分布的方差计算较为复杂,实际情况中,更多的使用样本方差。这也说明,对于t分布,需要了解图形随着自由度的变化趋势。
下图是t分布的概率密度函数图形。可以看出当自由度小的时候,t分布相较于正态分布,更“温和”。当自由度越来越大的时候,t分布更接近于正态分布。(这是因为正态分布的一个特征就是可以描述多种因素共同作用的效果)
在这里插入图片描述
三、t分布在统计学上的应用:
1、首先引出上∝分位数的概念:由于t分布也是抽样分布,所以对于t分布也需要关注上∝分位数。给定∝,0<∝<1,称满足条件
在这里插入图片描述
的点t_α (n)为t(n)分布的上α分位数。由于t分布是关于Y轴对称的,所以有t_(1-α) (n)=-t_α (n).
在这里插入图片描述
2、基础定理:
构造t分布的关键点是卡方分布,因为t分布里面包含了一个卡方分布。根据上文,正态分布总体样本方差与总体方差的比值结合一个系数(自由度)构成卡方分布。故引出抽样统计中二个重要定理:单个正态总体的抽样分布、两个正态总体的抽样分布。
1)、单个正态总体的抽样分布:
设总体X~N(μ,σ^2),x_1,x_2,⋯x_n是样本,样本均值
在这里插入图片描述
样本方差
在这里插入图片描述

在这里插入图片描述
此处需要注意的是自由度是n-1。原因是
在这里插入图片描述
2)、两个正态总体的抽样分布
设样本(x_1,x_2,⋯x_n)和(y_1,y_2,⋯y_n)分别来自总体N(μ_1,σ_1^2) 和N(μ_2,σ_2^2),并且它们相互独立,样本均值分别为x ̅,y ̅;样本方差分别是S_1^2, S_2^2,则可以得到下面的抽样分布:
在这里插入图片描述
当σ_1^2 =σ_2^2 =σ^2时,
在这里插入图片描述
其中,
在这里插入图片描述
3、应用
基于以上2个定理,可以构造枢轴量,进而操作区间估计和假设检验;另一方面,t分布在回归模型中也有涉及。以下分别介绍:
1)、枢轴量
单个正态总体的均值μ(方差未知):
在这里插入图片描述
基于这个枢轴量进行单个正态总体的均值的估计,和检验(此处有个别名为t检验)。
两个独立正态总体的均值差(方差相等但是未知):
在这里插入图片描述
另外,有一种特殊的情况在以上两种之外,就是小样本(样本量小于30),两个独立正态总体的均值差(方差不相等同时也未知),此处的统计量是近似服从t(k)分布。
在这里插入图片描述
在这里插入图片描述
基于以上的枢轴量操作的两个独立正态总体均值差的估计,和检验(t检验)。
2)、回归模型
回归模型所描述的是一系列独立同分布的正态分布,它们的共同特征。模型为
在这里插入图片描述
由最小二乘法计算出β_1的估计值。有以下的结论,
在这里插入图片描述
由此构造t检验量:
在这里插入图片描述
其中:
在这里插入图片描述
在这里插入图片描述
照旧:
在这里插入图片描述
由以上可知,t分布描述了基于正态分布抽样,描述由抽样样本标准化后形成的标准正态分布/样本方差与总体方差形成的卡方分布。显而易见的是样本数量越大,样本越接近总体,t检验也越接近正态分布。

### 关于 t 分布的概念及其计算 #### 什么是 t 分布? t 分布是一种连续型概率分布,通常用于估计小样本情况下总体均值的置信区间以及进行假设检验。它是由威廉·戈塞特(William Gosset)提出的,并以其笔名“Student”命名,因此也被称为 Student's t 分布[^1]。 #### t 分布的特点 t 分布具有以下几个特点: - 它是对称的钟形曲线,类似于正态分布。 - 当自由度较小时,t 分布的尾巴更厚,表明其方差更大。 - 随着自由度增加,t 分布逐渐接近标准正态分布(Z 分布)。当自由度趋于无穷大时,t 分布完全等于 Z 分布[^2]。 #### 自由度的作用 自由度是指独立观测值的数量减去为了得到这些观测值所必需的约束条件数量。在 t 检验中,自由度决定了 t 分布的具体形状。例如,在单样本 t 检验中,自由度为 \( n - 1 \),其中 \( n \) 表示样本大小。 #### t 统计量的计算公式 t 统计量可以通过以下公式计算: \[ t = \frac{\bar{X} - \mu}{s / \sqrt{n}} \] 其中: - \( \bar{X} \) 是样本均值, - \( \mu \) 是总体均值(通常是零假设中的值), - \( s \) 是样本的标准偏差, - \( n \) 是样本大小[^4]。 以下是基于上述公式的 Python 实现代码示例: ```python import numpy as np from scipy.stats import ttest_1samp # 假设我们有一组样本数据 sample_data = [5, 7, 8, 9, 10] population_mean = 7 # 总体均值假设 # 计算 t 统计量和 p 值 t_statistic, p_value = ttest_1samp(sample_data, population_mean) print(f"T Statistic: {t_statistic}") print(f"P Value: {p_value}") ``` 这段代码展示了如何通过 `scipy` 库执行单样本 t 检验并获得 t 统计量和对应的 p 值。 #### t 分布的应用场景 t 分布广泛应用于以下几种情况: - 单样本 t 检验:判断样本均值是否与已知总体均值存在显著差异。 - 独立双样本 t 检验:比较两组独立样本的均值是否有显著差异。 - 配对样本 t 检验:分析配对样本之间的均值差异是否显著。 --- ###
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值