机器学习-线性回归原理推导与算法描述

最新推荐文章于 2022-02-23 18:19:06 发布

帅泽泽

最新推荐文章于 2022-02-23 18:19:06 发布

阅读量148

点赞数

分类专栏：机器学习文章标签：机器学习

原文链接：https://blog.csdn.net/pxhdky/article/details/82388964?utm_medium=distribute.pc_relevant.none-task-blog-baidulandingword-10&spm=1001.2101.3001.4242

版权

机器学习专栏收录该内容

11 篇文章 3 订阅

订阅专栏

1. 概念

线性回归（LinearRegression）是一种通过属性的线性组合来进行预测的线性模型，其目的是找到一条直线或者一个平面或者更高维的超平面，使得预测值与真实值之间的误差最小化。

在这里插入图片描述

2. 特点

优点：结果具有很好的可解释性（w直观表达了各属性在预测中的重要性），计算熵不复杂。缺点：对非线性数据拟合不好
适用数据类型：数值型和标称型数据

3. 原理推导

给定数据集 $D=\left\{\left(x_{i}, y_{i}\right)\right\}_{i=1,}^{m}$ 其中 $x_{i}=\left(x_{i 1}, x_{i 2}, \ldots, x_{i d}\right), y_{i} \in R$ (线性回归的输出空间是整个实数空间) $。 m$ 是样本数, $d$ 是属性维度。
线性回归试图学得：

$f\left(x_{i}\right)=w^{T} x_{i}+b (1)$
使得 $f\left(x_{i}\right) \simeq y_{i_{0}}$

为便于讨论, 使 $b=w_{0} \cdot x_{0,}$ 其中 $x_{0}=1_{\circ}$ 此时, $w$ 就成为了 $w=\left(w_{0}, w_{1}, \ldots, w_{d}\right), x$ 就成为了 $x_{i}=\left(1, x_{i 1}, \ldots, x_{i d}\right),$ 期望学得的函数为 $f\left(x_{i}\right)=w^{T} x_{i_{0}}$
预测值和真实值之间都肯定存在差异 $\varepsilon,$ 对于每个样本：
$y_{i}=w^{T} x_{i}+\varepsilon_{i} (2)$
假设误差 $\varepsilon_{i}$ 是独立同分布的，并且服从高斯分布。即：
$p\left(\varepsilon_{i}\right)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\varepsilon_{i}^{2}}{2 \sigma^{2}}\right) (3)$
将 (2) 代入 (3) 中, 得到在已知参数 $w$ 和数据 $w_{i}$ 的情况下，预测值为 $y_{i}$ 的条件概率：
$p\left(y_{i} \mid x_{i} ; w\right)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y_{i}-w^{T} x_{i}\right)^{2}}{2 \sigma^{2}}\right) (4)$
将 (4) 连乘得到在已知参数w和数据 $x$ 的情况下，预测值为 $y$ 的条件概率，这个条件概率在数值上等于,P(w∣x,y), 也就是在已知现有数据的条件下，w是真正参数的概率，即似然函数 (5) :
$L(w)=\prod_{i=1}^{m} p\left(y_{i} \mid x_{i} ; w\right)=\prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y_{i}-w^{T} x_{i}\right)^{2}}{2 \sigma^{2}}\right)$

为什么要引入似然函数：为了根据样本估计参数值。
为什么要对似然函数进行log变换：由于乘法难解，通过对数可以将乘法转换为加法, 简化计算。

对数似然函数：
$\begin{array}{l} \ell(w)=\log \prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y_{i}-w^{T} x_{i}\right)^{2}}{2 \sigma^{2}}\right) \\ =\sum_{i=1}^{m} \log \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y_{i}-w^{T} x_{i}\right)^{2}}{2 \sigma^{2}}\right) \\ =\sum_{i=1}^{m} \log \frac{1}{\sqrt{2 \pi} \sigma}+\sum_{i=1}^{m} \log \left(\exp \left(-\frac{\left(y_{i}-w^{T} x_{i}\right)^{2}}{2 \sigma^{2}}\right)\right) \\ =m \log \frac{1}{\sqrt{2 \pi} \sigma}-\sum_{i=1}^{m} \frac{\left(y_{i}-w^{T} x_{i}\right)^{2}}{2 \sigma^{2}} \\ =m \log \frac{1}{\sqrt{2 \pi} \sigma}-\frac{1}{\sigma^{2}} \frac{1}{2} \sum_{i=1}^{m}\left(y_{i}-w^{T} x_{i}\right)^{2} \end{array}$

得到目标函数：
$\begin{array}{c} J(w)=\frac{1}{2} \sum_{i=1}^{m}\left(y_{i}-w^{T} x_{i}\right)^{2} \\ =\frac{1}{2}\left\|\left[\begin{array}{c} y_{1}-w^{T} x_{1} \\ y_{2}-w^{T} x_{2} \\ \cdots \\ y_{m}-w^{T} x_{m} \end{array}\right]\right\|^{2}=\frac{1}{2}\left\|\left[\begin{array}{c} y_{1} \\ y_{2} \\ \cdots \\ y_{m} \end{array}\right]-w^{T}\left[\begin{array}{c} x_{1} \\ x_{2} \\ \cdots \\ x_{m} \end{array}\right]\right\|^{2} \\ =\frac{1}{2}\left\|y-w^{T} X\right\|^{2}=\frac{1}{2}\left(y-w^{T} x\right)^{T}\left(y-w^{T} x\right) \end{array}$

为什么要让目标函数越小越好：似然函数表示样本成为真实的概率，似然函数越大越好, 也就是目标函数 $J (w)$ 越小越好。

目标函数是凸函数，只要找到一阶导数为0的位置, 就找到了最优解。
因此求偏导:
$\begin{array}{l} \frac{\partial J(w)}{\partial w}=\frac{1}{2} \frac{\partial}{\partial w}\left(\left(y-w^{T} x\right)^{T}\left(y-w^{T} x\right)\right) \\ =\frac{1}{2} \frac{\partial}{\partial w}\left((y-X w)^{T}(y-X w)\right) \\ =\frac{1}{2} \frac{\partial}{\partial w}\left(w^{T} X^{T} X w-2 w^{T} X y+y^{T} y\right) \\ =\frac{1}{2}\left(X^{T} X w+X^{T} X w-2 X y\right) \\ =X^{T} X w-X y \end{array}$
令偏导等于0 :
$\frac{\partial J(w)}{\partial w}=0$
得到：
$X^{T} X w=X y$
情况一： $X^{T} X$ 可逆, 唯一解。令公式 (10) 为零可得最优解为:
$w^{*}=\left(X^{T} X\right)^{-1} X^{T} y$
学得的线性回归模型为:
$\hat{y}=w^{T} X=X^{T} w=X^{T}\left(X^{T} X\right)^{-1} X^{T} y$
情况二： $X^{T} X$ 不可逆, 可能有多个解。选择哪一个解作为输出，将有学习算法的偏好决定, 常见的做法是增加入扰动。
$w^{*}=\left(X^{T} X+\lambda I\right)^{-1} X^{T} y$

4. 算法描述

从数据集D出发, 构建输入矩阵X和输出向量y。
$X=\left[\begin{array}{c} x_{1}^{T} \\ x_{2}^{T} \\ \cdots \\ x_{m}^{T} \end{array}\right] \quad y=\left[\begin{array}{c} y_{1} \\ y_{2} \\ \cdots \\ y_{m} \end{array}\right]$
计算伪逆（pseudo-inverse $X^{+}$ 。
返回 $w^{*}=X^{+} y,$ 学得的线性回归模型为 $\hat{y}=w^{T} X$ 。
$\Gamma$ & 线性回归
当 $y$ 不再只是线性回归中用到的正态分布，而是扩大为指数族中的任一分布。这样得到的模型称为“广义线性模型” (generalized linear model $） :$
$y=g^{-1}\left(w^{T} x+b\right)$

其中函数 g (・)称为“联系函数" (link function)

帅泽泽

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习-线性回归原理推导与算法描述

1. 概念线性回归（LinearRegression）是一种通过属性的线性组合来进行预测的线性模型，其目的是找到一条直线或者一个平面或者更高维的超平面，使得预测值与真实值之间的误差最小化。2. 特点优点：结果具有很好的可解释性（w直观表达了各属性在预测中的重要性），计算熵不复杂。缺点：对非线性数据拟合不好适用数据类型：数值型和标称型数据3. 原理推导给定数据集 D={(xi,yi)}i=1,mD=\left\{\left(x_{i}, y_{i}\right)\right\}_{
复制链接

扫一扫