线性回归学习笔记

最新推荐文章于 2022-10-27 13:33:57 发布

白儿墨

最新推荐文章于 2022-10-27 13:33:57 发布

阅读量675

点赞数

分类专栏：机器学习总结

本文链接：https://blog.csdn.net/weixin_44264662/article/details/99549474

版权

机器学习总结专栏收录该内容

18 篇文章 1 订阅

订阅专栏

线性回归算法

线性回归算法的优缺点：

优点：
思想简单，容易实现
是许多强大的非线性模型的基础
结果具有很好的可解释性，相应的系数可以理解为权重
蕴含机器学习中的很多重要思想

公式推导

预测 $\hat y^{(i)} = X^{(i)}w+b$
目标是使 $y$ 与 $\hat y$ 尽量接近，即使 $\sum\limits_{i=1}^m(y^{(i)}-\hat y^{(i)})$ 尽可能小。
但是使用该误差的简单累加，使得正差值和负差值相互抵消，所以要采用平方误差。

故，目标为平方误差： $\sum\limits_{i=1}^m(y^{(i)}-\hat y^{(i)})^2$ 尽可能小
确定了线性回归的损失函数或者称之为效用函数，通过最优化损失函数或者效用函数，得到机器学习模型。

$\min \sum\limits_{i=1}^m(y^{(i)}-\hat y^{(i)})^2\\ =\min\limits_{w,b} \sum\limits_{i=1}^m(y^{(i)}-X^{(i)}w-b)^2$
求关于 $w, b$ 的偏导数
$\frac{\partial loss function}{\partial w}=\sum\limits_{i=1}^m2(y^{(i)}-wX^{(i)}-b)X^{(i)}$
$\frac{\partial loss function}{\partial b}=\sum\limits_{i=1}^m-2(y^{(i)}-wX^{(i)}-b)$
令偏导数为0
求得关于w和b的表达式
$b=\frac{\sum\limits_{i=1}^my^{(i)}-\sum\limits_{i=1}^mwX^{(i)}}{m}=\bar y - w\bar x$
$w=\frac{\sum\limits_{i=1}^m y^{(i)}X^{(i)}-\bar yX^{(i)}}{\sum\limits_{i=1}^mX^{(i)}X^{(i)}-\bar XX^{(i)}}$
因为 $\sum\limits_{i=1}^m\bar yX^{(i)}=\bar y \sum\limits_{i=1}^mX^{(i)}=m\bar y\bar x = \bar x\sum\limits_{i=1}^my^{(i)}=\sum\limits_{i=1}^mX^{(i)}y^{(i)}$
所以上式可以化简为
$w=\frac{\sum\limits_{i=1}^m \big(y^{(i)}-\bar y\big) \big(X^{(i)} - \bar X\big)}{\sum\limits_{i=1}^m (X^{(i)}-\bar X)^2}$

采用向量化的方式进行推导

此时不再单独设置b这个变量了，而是在X数据集的基础上，添加一列全是1的向量，此时与X做点乘的w中，w[0]即为截距
$\hat y=Xw$
$\min\limits_{w}(y-\hat y)^2\\ =\min\limits_{w}(y-Xw)^T(y-Xw)\\ =\min\limits_{w}y^Ty-y^TXw-w^TX^Ty-w^TX^TXw$
求解w，即对其求导，并令其为0

其中求导时，用到两个非常重要的公式
1.对于向量x求导
$\nabla_x w^Tx=w$
证明：
$w^Tx=\begin{pmatrix}w_1&w_2&...&w_n\end{pmatrix}\cdot\begin{pmatrix}x_1\\x_2\\...\\x_n\end{pmatrix}\\ =\sum\limits_{i=1}^nw_ix_i$
所以对 $x_i$ 求导，对应的导数为 $w_i$
故 $\nabla_x w^Tx=w$

2.对向量x求导
$\nabla_x x^TAx=(A+A^T)x$
其中x为向量，A为矩阵

证明：
对于二次型 $x^TAx$
$x^TAx=\begin{pmatrix}x_1&x_2&...&x_n\end{pmatrix}\begin{pmatrix} a_{11}&a_{12}&...&a_{1n}\\a_{21}&a_{22}&...&a_{2n}\\.\\.\\a_{n1}&a_{n2}&...&a_{nn}\end{pmatrix}\begin{pmatrix}x_1\\x_2\\...\\\\x_n\end{pmatrix}\\ =\begin{pmatrix}x_1&x_2&...&x_n\end{pmatrix}\begin{pmatrix}a_{11}x_1+a_{12}x_2+...+a_{1n}x_{n}\\a_{21}x_1+a_{22}x_2+...+a_{2n}x_n\\...\\a_{n1}x_1+a_{n2}x_2+...+a_{nn}x_n\end{pmatrix}\\ =a_{11}x_1x_1+a_{12}x_1x_2+...+a_{1n}x_1x_n+a_{21}x_2x_1+a_{22}x_2x_2+...+a_{2n}x_2x_n +...+a_{n1}x_nx_1+a_{n2}x_nx_2+...+a_{nn}x_nx_n \\ =\sum\limits_{i=1}^n\sum\limits_{j=1}^na_{ij}x_ix_j$
其中，若只对 $x_1$ 求导则整理上式
$x^TAx=a_{11}x_1x_1+\sum\limits_{i=2}^na_{i1}x_ix_1+\sum\limits_{j=2}^na_{1j}x_{j}x_1+c$
对 $x_1$ 求导，则上式为
$2a_{11}x_1+\sum\limits_{i=2}^na_{i1}x_i+\sum\limits_{j=2}^na_{1j}x_{j}\\ =\sum\limits_{j=1}^na_{1j}x_{j}+\sum\limits_{j=1}^na_{1j}x_{j}\\ =A[1,:]\cdot x +A^T[1,:]\cdot x$
由此可知，对x求导后，导数为
$(A+A^T)\cdot x$

故线性回归中
$w = (X^TX)^{-1}X^Ty$

局部加权线性回归

在这里插入图片描述
看一些博文上的讲解，首先这种算法是一种非参数学习算法，也就是类似KNN算法，需要保留训练集。
对于一个新的待预测点，对其进行预测时，使用的训练集是基于这个待预测点加过权重的训练集，这个权重计算函数起到的作用就是使得靠近待测样本的点的权重大。

常用的权重的计算函数为高斯核
$exp\Big(\frac{(x^{i}-x_{predict})^2}{-2\gamma^2}\Big)$

这个函数非常类似高斯分布，
越靠近X_predict，则权值越大

同时k决定了权值的变化速率，k越小，变化速率越大

由此就定义了只含对角元素的权重矩阵W

所以我们的损失函数从原本的
$\sum\limits_{i=1}^m(y^{(i)}-wX^{(i)})^2$
转化为
$\sum\limits_{i=1}^mw^{(i)}(y^{(i)}-wX^{(i)})^2$ 前面的w为权重函数
转化为向量形式
$(y-X\theta )^TW(y-X\theta )$ 其中W为权重矩阵
同样的求解方法
求出 $\theta=(X^TWX)^{-1}X^TWy$

对应的输出为 $X\theta$

算法的流程为：
1.给出待预测的x
2.计算权重矩阵
3.求解theta
4.给出预测值

白儿墨

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
线性回归学习笔记

线性回归算法线性回归算法的优缺点：优点：思想简单，容易实现是许多强大的非线性模型的基础结果具有很好的可解释性，相应的系数可以理解为权重蕴含机器学习中的很多重要思想公式推导预测 y^(i)=X(i)w+b\hat y^{(i)} = X^{(i)}w+by^(i)=X(i)w+b目标是使yyy与y^\hat yy^尽量接近，即使∑i=1m(y(i)−y^(i))\sum\lim...
复制链接

扫一扫

专栏目录