线性回归推导

最新推荐文章于 2024-08-29 20:32:56 发布

Mingsheng Zhang

最新推荐文章于 2024-08-29 20:32:56 发布

阅读量2.4k

点赞数 3

1. 概念
线性回归（Linear Regression）是一种通过属性的线性组合来进行预测的线性模型，其目的是找到一条直线或者一个平面或者更高维的超平面，使得预测值与真实值之间的误差最小化。

2. 特点

优点：结果具有很好的可解释性（w直观表达了各属性在预测中的重要性），计算熵不复杂。
缺点：对非线性数据拟合不好
适用数据类型：数值型和标称型数据

3. 原理与推导
1. 给定数据集，其中，（线性回归的输出空间是整个实数空间）。m是样本数，d是属性维度。

线性回归试图学得：

（1），使得。

为便于讨论，使，其中。此时w，就成为了，x就成为了，期望学得的函数为。

2. 预测值和真实值之间都肯定存在差异，对于每个样本：

（2）

根据中心极限定理，由于误差项是好多好多相互独立的因素影响的综合影响，我们有理由假设其服从高斯分布，又由于可以自己适配theta0，是的误差项的高斯分布均值为0，所以我们有

即：

（3）

将（2）代入（3）中，得到在已知参数和数据的情况下，预测值为的条件概率：

（4）

表示在theta给定的时候，给我一个x，就给你一个y。

3. 将（4）连乘得到在已知参数和数据的情况下，预测值为的条件概率，这个条件概率在数值上等于，likelihood（w|x,y），也就是在已知现有数据的条件下，w是真正参数的概率，即似然函数（5）：

（5）

为什么要引入似然函数：为了根据样本估计参数值。

为什么要对似然函数进行log变换：由于乘法难解，通过对数可以将乘法转换为加法，简化计算。

由极大似然估计的定义，我们需要L(theta)最大，那么我们怎么才能是的这个值最大呢？两边取对数对这个表达式进行化简如下：对数似然函数：

（6）

得到目标函数：

（7）（最小二乘法）

为什么要让目标函数越小越好：似然函数表示样本成为真实的概率，似然函数越大越好，也就是目标函数越小越好。

4. 目标函数是凸函数，只要找到一阶导数为0的位置，就找到了最优解。

因此求偏导：

（8）

5. 令偏导等于0：

（9）

得到：

（10）

情况一：可逆，唯一解。令公式（10）为零可得最优解为：

（11）

学得的线性回归模型为:

（12）

情况二：不可逆，可能有多个解。选择哪一个解作为输出，将有学习算法的偏好决定，常见的做法是增加扰动。

（13）

4. 算法描述
1. 从数据集D出发，构建输入矩阵X和输出向量y。

2. 计算伪逆（pseudo-inverse）。

3. 返回，学得的线性回归模型为。

5. 广义线性回归
当不再只是线性回归中用到的正态分布，而是扩大为指数族中的任一分布。这样得到的模型称为“广义线性模型”（generalized linear model）：

其中函数称为“联系函数”（link function）。

原文：https://blog.csdn.net/pxhdky/article/details/82388964

Mingsheng Zhang

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。