如何理解ANOVA中的F值与P值

最新推荐文章于 2025-02-24 13:35:25 发布

zhangjipinggom

最新推荐文章于 2025-02-24 13:35:25 发布

阅读量10w+

点赞数 17

文章标签： ANOVA

本文深入浅出地解释了正态分布、卡方分布及F分布的基本概念，并通过实例展示了如何利用ANOVA进行特征选择，包括计算F值和p值来评估特征的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ANOVA(analysis of variance)，方差分析，曾经以为它是一个多么复杂的简写。。。

一、理解F分布

要理解F分布，就要先理解卡方分布，要理解卡方分布，就要先理解正态分布。

1.正态分布的概率密度函数的表达式：

$f(x)=\frac{1}{\sqrt{2\pi}\sigma }exp(\frac{(x-\mu)^2}{2\sigma^2})$

画出它的图像：

集中分布在随机变量的均值附近，对称

2.卡方分布

如果有n个服从正态分布的随机变量x，我们从这n个随机变量创造出一个新的随机变量，让它们平方然后相加（至于为什么要这么创造，这得去看卡方分布的创造过程）：

$\xi =\sum_{i=1}^{n}x^2$

假如我们就给这个新的随机变量取名叫“卡方”，那么卡方的概率密度函数为：

公式打着太费时间了，转战这篇博文：

https://blog.csdn.net/huangjx36/article/details/78002996

补充一下，gamma函数的表达式为：

$\tau (\alpha)=\int_{0}^{\infty }\xi ^\alpha^-^1e^- ^\xi d\xi$

可以证明，这个gamma函数的值一定存在，而且大于0

为什么这个复杂？人家就是傲娇地服从这个规律并且被找出来了。

这里的k（或者n）叫做自由度，它决定了卡方分布的概率密度曲线长什么样，就像均值方差决定正态分布长什么样一样。

3.F分布

我们再从两个服从卡方分布的随机变量创造一个新的随机变量，我们取名叫F：

https://baike.baidu.com/item/F-%E5%88%86%E5%B8%83/6311687

那么F的概率密度函数表达式和图象为：

对，一个更复杂的表达式。图象的长相由两个参数，自由度1和自由度2决定。

2. 理解ANOVA中的F值和p值

ANOVA我这里是用来做特征选择。

我假设，同一特征不同组间的均值是一样的。那我有多大的概率接受这个假设？

现在我要做的就是根据我的数据计算出F值（其实按照我的理解，这里的F就是一个随机变量，只是这个随机变量不是可以像投硬币一样把这个事件本身当做一个随机变量这么简单，而是要根据组间的数据计算一下，计算的过程参考https://en.wikipedia.org/wiki/One-way_analysis_of_variance#Example）

从计算的过程可以推出，其实我们默认了组间方差或组内方差服从卡方分布。

这里的F值是一个比值，组间平均方差和组内平均方差的比值，当组间方差和组内方差一样（我们认为这两个组别差别很小），那么F值为1，组间方差远大于组内方差时这个F值也就会比较大。

下面这幅图是F分布的图像

enter image description here

可以看出，每一个F值都会对应一个p值，F值越大，p值越小，我就越不可能接受我的假设，也就认为组间的特征差别大。

所以，p值越小，这个特征就越该被保留下来。

建议看：

https://stats.stackexchange.com/questions/12398/how-to-interpret-f-and-p-value-in-anova

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。