模型自由度与残差自由度

Joke#

于 2024-04-12 12:44:08 发布

阅读量3.2k

点赞数 6

文章标签： python 机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_55109830/article/details/137554628

版权

模型的自由度（degrees of freedom）通常指的是在模型参数估计过程中剩余可以自由变化的数量。

当我们谈论残差平方和（RSS）或误差项的自由度时，确实使用的是n - k - 1的公式，这里：

n 是样本大小，即观测值的数量。
k 是除了截距项之外的解释变量个数。

自由度n - k - 1的原因在于：

因为模型中有k+1个待估计的参数（包括截距项）。
在确定了这k+1个参数后，n个观测值中的n - (k+1)个值就被模型完全确定了（因为它们是通过模型计算出来的残差）。
所以残差具有n - k - 1个自由度，意味着在这个模型框架下，残差能够独立变化的程度。

模型自由度指模型参数（包括截距项）的总数减1，即k+1-1=k（解释变量的个数）

如果总共有k+1个解释变量（包括截距项作为一个特殊的解释变量），则理论上存在k+1个未知参数需要估计。但是，在OLS（普通最小二乘法）估计过程中，模型参数的方程组是线性的，并且总是可以通过重新标度所有解释变量使得模型中的截距项固定不变。这样一来，尽管有k+1个参数，但实际上只确定了k个独立的参数关系。

当我们使用最小二乘法求解时，由于需要满足误差项的均值为0的假设，即误差项的总和应该等于0（这是因为误差项是残差，而残差与截距项和解释变量的系数相加应当等于因变量观测值），因此即使有k个参数，最后一个参数实际上是通过其他k个参数以及数据点的总和条件来确定的，这导致了一个自由度的减少。

即在最小二乘估计的过程中，为了使残差的均值为0（即误差项的期望值为0），模型会自动调整截距项的估计值以满足这个条件。因此，尽管看起来模型有k+1个参数（k个解释变量系数加上截距项），但实际上只有k个参数是“自由”选择的，截距项受到其余参数及数据集中因变量平均值的约束，从而失去了一个自由度。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。