作者:小猪快跑
基础数学&计算数学,从事优化领域7年+,主要研究方向:MIP求解器、整数规划、随机规划、智能优化算法
选择使用t分布还是正态分布通常取决于样本量的大小以及是否知道总体的标准差。
-
正态分布:
- 当样本量较大(通常n > 30)时,根据中心极限定理,无论原始总体分布是什么形状,样本均值的分布将接近正态分布。
- 如果总体标准差已知,并且你对总体均值进行推断,也可以使用正态分布,即使样本量较小。
-
t分布:
- 当样本量较小(n ≤ 30),并且总体标准差未知时,应该使用t分布。t分布与正态分布相似,但具有更宽的尾部,以反映小样本时更大的不确定性。
- t分布依赖于自由度的概念,自由度等于样本量减一(df = n - 1)。随着样本量增加,t分布逐渐逼近正态分布。
总结来说,如果你有一个小样本,并且不知道总体标准差,那么你应该使用t分布来进行统计推断。如果你有一个大样本,或者你知道总体标准差,那么你可以使用正态分布。在实际应用中,如果样本量足够大,两种分布之间的差异变得很小,这时可以认为两者是等价的。
如有错误,欢迎指正。如有更好的算法,也欢迎交流!!!——@小猪快跑
相关教程
- 常用分布的数学期望、方差、特征函数
- 【推导过程】常用离散分布的数学期望、方差、特征函数
- 【推导过程】常用连续分布的数学期望、方差、特征函数
- Z分位数速查表
- 【概率统计通俗版】极大似然估计
- 【附代码&原理】正态分布检验
- 【附代码&原理】偏正态分布的数据处理方法
- 【超详图文】多少样本量用 t分布 OR 正态分布
- 【推导过程】常用共轭先验分布
- 【机器学习】【通俗版】EM算法(待更新)
相关文献
- [1] 茆诗松,周纪芗.概率论与数理统计 (第二版)[M].中国统计出版社,2000.
- [2] Bessel’s correction - Wikipedia
- [3] The t-distribution: a key statistical concept discovered by a beer brewery
- [4] Student’s t distribution | A Blog on Probability and Statistics
- [5] Student’s t distribution | Properties, proofs, exercises
预备知识
Lindeberg-Lévy中心极限定理
设 { X n } \{ X_n \} {
Xn} 是独立同分布的随机变量序列, 且 E ( X n ) = μ E (X_n) = \mu E(Xn)=μ, V a r ( X n ) = σ 2 > 0 \mathrm{Var} (X_n)= \sigma^2 > 0 Var(Xn)=σ2>0.
记
Y n ∗ = X 1 + X 2 + ⋯ + X n − n μ σ n Y_n^* = \frac{X_1 + X_2 + \dotsb + X_n - n \mu}{\sigma \sqrt{n}} Yn∗=σnX1+X2+⋯+Xn−nμ
则对任意实数 $ y $, 有
lim n → + ∞ P ( Y n ∗ ≤ y ) = Φ ( y ) = 1 2 π ∫ − ∞ y e − t 2 / 2 d t . \lim_{n \to +\infty} P ( Y_n ^* \leq y ) = \Phi (y) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^y \mathrm{e}^{-t^2/2} \mathrm{d} t. n→+∞limP(Yn∗≤y)=Φ(y)=2π1∫−∞ye−t2/2dt.
预备定理
设 x 1 , x 2 , ⋯ , x n x_{1},x_{2},\cdots,x_n x1,x2,⋯,xn 是来自正态总体 N ( μ , σ 2 ) N(\mu,\sigma^{2}) N(μ,σ2) 的样本 ,其样本均值和样本方差分别为
x ‾ = 1 n ∑ i = 1 n x i 和 s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ‾ ) 2 \overline{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}\text{和}s^{2}=\frac{1}{n-1}\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2} x=n1i=1∑nxi和s2=n−11i=1∑n(xi−x)2
则有
-
x ˉ \bar{x} xˉ 与 s 2 s^2 s2 相互独立
-
x ‾ ∼ N ( μ , σ 2 / n ) \overline{x}\sim N(\mu,\sigma^2/n) x∼N(μ,σ2/n)
-
( n − 1 ) s 2 σ 2 ∼ X 2 ( n − 1 ) \frac{(n-1)s^2}{\sigma^2}\sim X^2(n-1) σ2(n−1)s2∼X2(n−1)
证明:
x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1,x2,⋯,xn 的联合密度函数为
p ( x 1 , x 2 , ⋯ , x n ) = ( 2 π σ 2 ) − n / 2 e − ∑ i = 1 n ( x i − μ ) 2 2 σ 2 = ( 2 π σ 2 ) − n / 2 e x p { − ∑ i = 1 n x i 2 − 2 n x ˉ μ + n μ 2 2 σ 2 } p(x_{1},x_{2},\cdots,x_{n})=(2\pi\sigma^{2})^{-n/2}\mathrm{e}^{-\sum_{i=1}^{n}\frac{(x_{i}-\mu)^{2}}{2\sigma^{2}}}=(2\pi\sigma^{2})^{-n/2}\mathrm{exp}\Big\{-\frac{\sum_{i=1}^{n}x_{i}^{2}-2n\bar{x}\mu + n\mu^{2}}{2\sigma^{2}}\Big\} p(x1,x2,⋯,xn)=(2πσ2)−n/2e−∑i=1n2σ2(xi−μ)2=(2πσ2)−n/2exp{
−2σ2∑i=1nxi2−2nxˉμ+nμ2}
记 X = ( x 1 , x 2 , ⋯ , x n ) T X=(x_1,x_2,\cdots,x_n)^{\mathrm{T}} X=(x1,x2,⋯,xn)T,取一个 n n n维正交矩阵 A A A ,其第一行的每一个元素均为1/ n \sqrt{n} n ,如
A = (