线性回归误差原理推导

yuride

已于 2022-12-03 21:11:28 修改

阅读量658

点赞数

文章标签：线性回归算法

于 2022-12-03 20:26:56 首次发布

本文链接：https://blog.csdn.net/weixin_43858206/article/details/128165581

版权

线性回归：

在我们使用机器学习算法时，我们总会用它去解决一些实际的例子，例如：
我需要通过一些算法判断这个人是不是小黑子，那么我就需要一些判断的因素（会不会打篮球；说不说“只因”）这些判断依据称为影响因素，我们可以记为 $x_1$ , $x_2$ , 而这些因素的重要性却不尽相同，所以我们需要一些系数，又称为权重，需要对这些因素的重要性加以描述，记为 $θ_0$ , $θ_1$ , $θ_2$ ，所以我们可以构建下面的函数对上面的问题加以描述：
$h_{\theta}\left( x \right) =\theta _0+\theta _1x_1+\theta _2x_2$
由于上面的模型有点像我们高中学过的线性函数，又是个回归问题，所以叫线性回归。

单个样本具有偶然性，所以我们需要大量的样本来找到一条具有普适性的一个表达式，为了简化表达式，我们引入了矩阵，我们令 $x_0$ 为全1的一个一维矩阵，共有n个样本，我们的表达式简化为：
$h_{\theta}\left( x \right) =\sum_{i=0}^n{\theta _ix_i=\theta ^TX}$

线性回归误差原理推导

在实际的寻找各个权重的过程中，在真实值y(label)和预测值之间会有一定的误差，表示为：
$y^{\left( i \right)}=\theta ^Tx^{\left( i \right)}+\varepsilon ^{\left( i \right)}$
在证明之前，我们假设误差 $\varepsilon ^{\left( i \right)}$ 是独立并且具有相同的分布通常认为服从均值为0方差为 $θ^2$ 的高斯分布。
证明过程如下：

$\\ \varepsilon ^{\left( i \right)}\text{的高斯分布表达式为：}\\ ~\\ \\p\left( \varepsilon ^{\left( i \right)} \right) =\frac{1}{\sqrt{2\pi \sigma}}\exp \left( -\frac{\left( \varepsilon ^{\left( i \right)} \right) ^2}{2\sigma ^2} \right) \\ ~\\ \\\because y^{\left( i \right)}=\theta ^Tx^{\left( i \right)}+\varepsilon ^{\left( i \right)}\\ ~\\ \therefore \varepsilon ^{\left( i \right)}=y^{\left( i \right)}-\theta ^Tx^{\left( i \right)}\text{，带入上式得：}\\ ~\\ p\left( y^{\left( i \right)}|x^{\left( i \right)};\theta \right) =\frac{1}{\sqrt{2\pi \sigma}}\exp \left( -\frac{\left( y^{\left( i \right)}-\theta ^Tx^{\left( i \right)} \right) ^2}{2\sigma ^2} \right) \\ ~\\ ps:\theta \text{表示我们需要得到的参数值，也就是权重}\\ ~\\ ps\text{：}p\left( y^{\left( i \right)}|x^{\left( i \right)};\theta \right) \text{表示的含义：我们需要找到}\theta \text{与}x\text{组合起来最接近}y\left( \text{真实值}\left( label \right) \right) \text{的概率值}\\ ~\\ \text{目标：使得}p\left( y^{\left( i \right)}|x^{\left( i \right)};\theta \right) \text{最大}\\ ~\\ \text{方法：引入似然函数，使得}\boldsymbol{L}\left( \boldsymbol{\theta } \right) \text{为最大值：}\\ ~\\ L\left( \theta \right) =\prod_{i=1}^m{p\left( y^{\left( i \right)}|x^{\left( i \right)};\theta \right)}\\ ~\\ ps:\text{为了找到一个能够适应很多样本的具有普适性的线性回归表达式}\\ ~\\ \text{我们使用}\prod{\text{表示}m\text{个样本概率值}p\text{的连乘操作}}\\ ~\\ \text{把}p\left( y^{\left( i \right)}|x^{\left( i \right)};\theta \right) =\frac{1}{\sqrt{2\pi \sigma}}\exp \left( -\frac{\left( y^{\left( i \right)}-\theta ^Tx^{\left( i \right)} \right) ^2}{2\sigma ^2} \right) \text{带入上式得：}\\ ~\\ L\left( \theta \right) =\prod_{i=1}^m{\frac{1}{\sqrt{2\pi \sigma}}\exp \left( -\frac{\left( y^{\left( i \right)}-\theta ^Tx^{\left( i \right)} \right) ^2}{2\sigma ^2} \right)}\\ ~\\ \because \text{在实际操作过程中，对连乘求最大值难度很大，}\\ ~\\ \text{又}\because \log\text{函数具有：}\log ab=\log a+\log b\text{的性质}\\ ~\\ \therefore \text{我们引入对数似然函数：}\\ ~\\ l\left( \theta \right) =\log L\left( \theta \right) \\ ~\\ =\log \prod_{i=1}^m{\frac{1}{\sqrt{2\pi \sigma}}\exp \left( -\frac{\left( y^{\left( i \right)}-\theta ^Tx^{\left( i \right)} \right) ^2}{2\sigma ^2} \right)}\\ ~\\ =\sum_{i=1}^m{\log \frac{1}{\sqrt{2\pi \sigma}}\exp \left( -\frac{\left( y^{\left( i \right)}-\theta ^Tx^{\left( i \right)} \right) ^2}{2\sigma ^2} \right)}\\ ~\\ ps:\text{通过}\log\text{似然函数将}\prod{\text{连乘操作转换成}\sum{\text{连加操作}}}\\ ~\\ \text{又}\because l\left( \theta \right) \text{是关于}\theta \text{的函数，所以上式可化简为：}\\ ~\\ l\left( \theta \right) =m\log \frac{1}{\sqrt{2\pi \sigma}}-\frac{1}{\sigma ^2}\cdot \frac{1}{2}\sum_{i=1}^m{\left( y^{\left( i \right)}-\theta ^Tx^{\left( i \right)} \right) ^2}\\ ~\\ ps:\ \exp\text{表示为}e\text{的幂，为计算简便，我们把}\log\text{表示为以}e\text{为底，}\\ ~\\ \text{故：}\log\exp \left( -\frac{\left( y^{\left( i \right)}-\theta ^Tx^{\left( i \right)} \right) ^2}{2\sigma ^2} \right) =-\frac{\left( y^{\left( i \right)}-\theta ^Tx^{\left( i \right)} \right) ^2}{2\sigma ^2}\\ ~\\ \text{最后我们去除常数项，得到最后的目标函数：}\\ ~\\ J\left( \theta \right) =\frac{1}{2}\sum_{i=1}^m{\left( y^{\left( i \right)}-\theta ^Tx^{\left( i \right)} \right) ^2}\\ ~\\ ps\text{：}\because \frac{1}{\sigma ^2}\text{与}\left( y^{\left( i \right)}-\theta ^Tx^{\left( i \right)} \right) ^2\text{都是恒大于0的值，前面有个负号}\\ ~\\ \therefore \text{要使得}l\left( \theta \right) \text{最大，便要使得}\frac{1}{\sigma ^2}\cdot \frac{1}{2}\sum_{i=1}^m{\left( y^{\left( i \right)}-\theta ^Tx^{\left( i \right)} \right) ^2}\text{即使得目标函数}J\left( \theta \right) \text{最小即可}\\ ~\\ \text{为后续计算简便，我们将上式用矩阵的形式表示：}\\ ~\\ \because h_{\theta}\left( x \right) =\sum_{i=0}^n{\theta _ix_i=\theta ^TX}\\ ~\\ \therefore J\left( \theta \right) =\frac{1}{2}\sum_{i=1}^m{\left( h_{\theta}\left( x^{\left( i \right)} \right) -y^{\left( i \right)} \right) ^2}=\frac{1}{2}\left( \theta ^TX-Y \right) ^2=\frac{1}{2}\left( X\theta -Y \right) ^T\left( X\theta -Y \right) \\ ~\\ \text{对其求导，得到极值：}\\ ~\\ \nabla _{\theta}J\left( \theta \right) =\nabla _{\theta}\left( \frac{1}{2}\left( X\theta -Y \right) ^T\left( X\theta -Y \right) \right) =\nabla _{\theta}\left( \frac{1}{2}\left( \theta ^TX^T-Y^T \right) \left( X\theta -Y \right) \right) \\ ~\\ ps:\nabla _{\theta}\text{求导符号，\ }\left( AB \right) ^T=B^TA^T\\ ~\\ \nabla _{\theta}J\left( \theta \right) =\nabla _{\theta}\left( \frac{1}{2}\left( \theta ^TX^TX\theta -\theta ^TX^TY-Y^TX\theta +Y^TY \right) \right) \\ ~\\ \because \frac{\partial \left( x^TAx \right)}{\partial x}=Ax+A^Tx\\ ~\\ \therefore \nabla _{\theta}\left( \theta ^TX^TX\theta \right) =X^TX\theta +X^TX\theta =2\left( X^TX\theta \right) \\ ~\\ \text{又}\because \frac{\partial \left( x^TA \right)}{\partial x}=A\\ ~\\ \therefore \nabla _{\theta}\left( \theta ^TX^TY \right) =X^TY\\ ~\\ \text{又}\because \frac{\partial \left( Ax \right)}{\partial x}=A^T\\ ~\\ \therefore \nabla _{\theta}\left( Y^TX\theta \right) =X^TY\\ ~\\ \therefore \nabla _{\theta}J\left( \theta \right) =\nabla _{\theta}\left( \frac{1}{2}\left( \theta ^TX^TX\theta -\theta ^TX^TY-Y^TX\theta +Y^TY \right) \right) \\ ~\\ =\frac{1}{2}\left( 2\left( X^TX\theta \right) -X^TY-X^TY \right) \\ ~\\ =X^TX\theta -X^TY\\ ~\\ \text{令}\nabla _{\theta}J\left( \theta \right) =0\text{，求得极值：}\\ ~\\ X^TX\theta -X^TY=0\\ ~\\ \theta =\left( X^TX \right) ^{-1}X^TY\\ ~\\ \text{即：当}\theta \text{取得}\left( X^TX \right) ^{-1}X^TY\text{能够使得}\theta \text{与}x\text{组合起来最接近}y\left( \text{真实值}\left( label \right) \right) \text{的概率值最大，证毕！} \\！$