线性回归公式推导

最新推荐文章于 2023-07-31 22:30:58 发布

Mr Sorry

最新推荐文章于 2023-07-31 22:30:58 发布

阅读量806

点赞数

分类专栏：学习笔记文章标签：机器学习逻辑回归算法

本文链接：https://blog.csdn.net/weixin_45180140/article/details/119716704

版权

学习笔记专栏收录该内容

19 篇文章 1 订阅

订阅专栏

推导线性回归

线性回归问题就是利用一个线性的方程对已有的数据点进行拟合，目的是当拟合成功后，给你一个新的数据可以利用该线性方程得到较为准确的预测；

假设，我们现在又数据集 $X=\{x^{1}, x^{2},......,x^{m}\}$ ，且其中的每一个数据 $x^{i}=(x^{i}_1,x^{i}_2,......x^{i}_n)$ 是 $n$ 维向量（即包含了 $n$ 个特征，比如身高、体重、视力等）。对应的标签 $Y=\{y^1,y^2,......y^m\}$ 。

现在，我们有一个线性方程
$h_{\theta}(x^i)=\theta_0+\theta_1 x^i_1 + \theta_2 x^i_2+......+\theta_n x^i_n=\Theta^T \hat{x^i}\tag{1}$
其中 $\hat{x^i}:=(1,x^{i}_1,x^{i}_2,......x^{i}_n)$ ，在后面我们直接用 $x^i$ 表示；

假如每次输入一个 $x^i$ 都能得到一个与 $y^i$ 非常接近的值，则此线性方程是拟合成功的。

极大似然估计（MLE）

我们假设预测值与准确值之间有误差 $\varepsilon$
$y^i=h_{\theta}(x^i)+\varepsilon^i\tag{2}$
且，改误差服从高斯分布
$\varepsilon\sim N(0,\sigma^2)\tag{3}$
那么就有
$p(\varepsilon^i)=\frac{1}{\sqrt{2\pi}\sigma}\cdot\exp(-\frac{(\varepsilon^i)^2}{2\sigma^2})\tag{4}$
则似然函数为
$L(\theta|x)=\prod_{i=1}^{m}p(\varepsilon^i)=\prod_{i=1}^{m}p(y^i|x^i;\theta)=\prod_{i=1}^{m} \frac{1}{\sqrt{2\pi}\sigma}\cdot\exp(-\frac{(y^i-\Theta^T x^i)^2}{2\sigma^2})\tag{5}$
对数化
$l(\theta) = \log L(\theta|x) = \sum_{i=1}^{m}\log p(\varepsilon^i) = \sum_{i=1}^m\log(\frac{1}{\sqrt{2\pi}\sigma}\cdot\exp(-\frac{(y^i-\Theta^T x^i)^2}{2\sigma^2}))\\ =m\log\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{2\sigma^2}\sum_{i=1}^m(y^i-\Theta^T x^i)^2\tag{6}$
由极大似然估计可知，极大化 $l(\theta)$ 就是极小化 $\frac{1}{2}\sum_{i=1}^m(y^i-\Theta^T x^i)^2$

OLS（最小二乘法）

$\min_{\theta}J(\theta) = \frac{1}{2}\sum_{i=1}^m(y^i-h_{\theta}(x^i))^2$

求解

直接解析法

对下式求导并令其为0
$J(\theta) = \frac{1}{2}\sum_{i=1}^m(y^i-h_{\theta}(x^i))^2 = \frac{1}{2}(Y-X\Theta)^T(Y-X\Theta)$

$\triangledown_{\theta}J(\theta) = \triangledown_{\theta}\frac{1}{2}((Y^T-\Theta^TX^T)(Y-X\Theta))\\ =\triangledown_{\theta}\frac{1}{2}(Y^TY-Y^TX\Theta-\Theta^TX^TY + \Theta^TX^TX\Theta)\\ =\frac{1}{2}(-X^TY-X^TY+2X^TX\Theta)\\ =X^TX\Theta-X^TY$

最后求得
$\Theta = (X^TX)^{-1}X^TY$

Mr Sorry

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
线性回归公式推导

推导线性回归线性回归问题就是利用一个线性的方程对已有的数据点进行拟合，目的是当拟合成功后，给你一个新的数据可以利用该线性方程得到较为准确的预测；假设，我们现在又数据集X={x1,x2,......,xm}X=\{x^{1}, x^{2},......,x^{m}\}X={x1,x2,......,xm}，且其中的每一个数据xi=(x1i,x2i,......xni)x^{i}=(x^{i}_1,x^{i}_2,......x^{i}_n)xi=(x1i,x2i,......xni)是nnn维向量（
复制链接

扫一扫