线性回归中均方差的意义

老饼讲解机器学习

已于 2024-06-08 14:10:49 修改

阅读量1.8k

点赞数

分类专栏：机器学习文章标签：线性回归 python 机器学习

于 2022-09-07 10:52:27 首次发布

本文链接：https://blog.csdn.net/ywj_1991/article/details/126740885

版权

线性回归均方差最大似然概率解释误差模型

关键词由CSDN通过智能技术生成

机器学习专栏收录该内容

19 篇文章 12 订阅

订阅专栏

本站原创文章，转载请说明来自《老饼讲解-机器学习》

《老饼讲解-机器学习》--一个免费、专业、全面的机器学习网站https://www.bbbdata.com/ml

线性回归中一般使用均方差作为损失函数，那均方差的背景意义是什么呢？
本文从概率的角度讲解，线性回归中均方差损失函数的实际意义。

一、线性回归模型简单回顾

01.模型思想

线性回归模型以一条直线拟合数据

02.模型表达式

线性回归的模型表达式为：

$\text{Y}=XW$

03.模型损失函数

线性回归的损失函数为均方差

$\textbf{L}(W) =\dfrac{1}{m}\left \| (\text{y} - XW) \right \| ^2$

二、线性回归的误差

理想中 y与x的关系为 $\text{y} = \textbf{wx}$ ,
但由于 $\text{y}$ 除 $\textbf{x}$ 外，还受一些未知的因素的影响，
因此， $\text{y}$ 与 $\textbf{wx}$ 并不完全相等，
它们存在误差 $e=\text{y}-\textbf{w}\textbf{x}$

现假设误差 $e=\text{y}-\textbf{w}\textbf{x}$ 服从正态随机分布。
从这个假设可知，某个样本的误差为 $\text{y}-\textbf{w}\textbf{x}$ 时的概率为

$p =\dfrac{1}{\sqrt{2\pi}\sigma }\textbf{exp}\left ( -\dfrac{(\text{y}-\textbf{w}\textbf{x})^2}{2\sigma ^2} \right )$

三、最大似然函数

那么，根据最大似然函数的思想，
令所有样本同时出现的概率最大化即可。

可以易得，最大似然函数如下：
$\displaystyle P = \prod\limits _{i=1}^{n}p_i=\prod\limits _{i=1}^{n}\dfrac{1}{\sqrt{2\pi}\sigma }\textbf{exp}\left ( -\dfrac{(\text{y}_i-\textbf{w}\textbf{x}_i)^2}{2\sigma ^2} \right )$
P的意义是，如果y=wx,P就是采到当前这种误差特征的样本集的概率。
我们希望这个概率越大越好，
线性回归的问题也就变成求一w使得P最大的纯数学问题。

四、最大似然函数与均方差的关系

直接求一w使得P最大，不太好求，
P中含有大量连乘，可以对P加上对数来去除连乘运算，
因为加对数后的ln(P)与 P在同一w取得最大值，
因此上述问题可以转为求一w使得ln(P)最大。

$\begin{aligned} \displaystyle \textbf{ln}(P) &= \textbf{ln}\left ( \prod\limits _{i=1}^{n}\dfrac{1}{\sqrt{2\pi}\sigma }\textbf{exp}\left ( -\dfrac{(\text{y}_i-\textbf{w}\textbf{x}_i)^2}{2\sigma ^2} \right ) \right ) \\&= \dfrac{1}{\sqrt{2\pi}\sigma }\sum\limits _{i=1}^{n}\textbf{ln}\left [ \textbf{exp}\left ( -\dfrac{(\text{y}_i-\textbf{w}\textbf{x}_i)^2}{2\sigma ^2} \right ) \right ] \\&= -\dfrac{1}{\sqrt{2\pi}\sigma }\sum\limits _{i=1}^{n}\dfrac{(\text{y}_i-\textbf{w}\textbf{x}_i)^2}{2\sigma ^2} \\&= -\sqrt{\dfrac{2}{\pi}}\sigma\sum\limits _{i=1}^{n}(\text{y}_i-\textbf{w}\textbf{x}_i)^2 \end{aligned}$

要令

$\textbf{ln}(P)=-\sqrt{\dfrac{2}{\pi}}\sigma\sum\limits _{i=1}^{n}(\text{y}_i-\textbf{w}\textbf{x}_i)^2$

最大
实际只需令

$\displaystyle L = \sum\limits _{i=1}^{n}(\text{y}_i-\textbf{w}\textbf{x}_i)^2$

最小

可知，
线性回归中以均方差

$\displaystyle L = \dfrac{1}{n}\sum\limits _{i=1}^{n}(\text{y}_i-\textbf{w}\textbf{x}_i)^2$

作为损失函数，
实际上就是最大化样本的最大似然函数。

五、总结

所以，线性回归中，令 $\displaystyle L = \sum\limits _{i=1}^{n}(\text{y}_i-\textbf{w}\textbf{x}_i)^2$ 最小的本质意义，
是假设未知因素带来的误差服从正态分布，
求一个w，
使得采集到当前(这样的误差特征的)样本数据的概率最大。

参考文章
《机器学习一问一答(1)：线性回归》：https://zhuanlan.zhihu.com/p/75217411?from=singlemessage

相关文章

《入门篇-环境搭建:anaconda安装》

《入门篇-模型：逻辑回归》

《入门篇-模型：决策树-CART》