机器学习之线性回归原理分析

最新推荐文章于 2022-07-24 16:13:26 发布

run....

最新推荐文章于 2022-07-24 16:13:26 发布

阅读量250

点赞数

分类专栏：机器学习文章标签：线性代数矩阵机器学习人工智能算法

本文链接：https://blog.csdn.net/weixin_44991282/article/details/107950650

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

问题背景

假设银行根据你的工资水平和年龄来确定给你贷款的额度。目标：在已知工资和年龄的情况下，预测银行会贷款给你多少钱。并且已知如下数据。

工资	年龄	额度
4000	25	20000
8000	30	70000
5000	28	35000
7500	33	50000
12000	40	85000

问题分析

本问题的额度只受工资水平和年龄的影响，这里存在两个自变量工资 $x_1$ 和年龄 $x_2$ ，一个因变量额度 $y (x)$ 。我们容易想到最简单的数学模型，用一个平面 $y(x)=\theta_0 + \theta_1x_1 + \theta_2x_2$ 来拟合这些数据点，算出参数 $\theta_i$ ，这样我们就能够在给定条件 $x=(x_1,x_2)$ 下算出额度 y(x) 了。

模型假设

上述模型等价于 $\sum_{i=0}^2\theta_ix_i$ ，其中 $x_0=1,i=0,1,2$ 。这里只考虑了两个自变量，我们考虑可通用的情况，即考虑 n 个自变量的情况，即考虑 $\sum_{i=0}^n\theta_ix_i=\theta^Tx$ ，其中 $x_0=1,i=0,1,2,\cdots,n,\theta$ 未知。故特征维数为 $n$ ，令 $m$ 为样本个数。注意： $\theta$ 和 $x$ 都是 $n + 1$ 维列向量， $y$ 是 $m$ 维列向量。

由于真实值 $y^{(j)}$ ( 其中 $j=1,2,\cdots,m$ ) 和预测值 $\theta^Tx^{(j)}$ 之间存在误差，为了增加模型的准确性，我们给每个样本增加一个误差 $\epsilon^{(j)}$ ，即 $y^{(j)}=\theta^Tx^{(j)}+\epsilon^{(j)}$ 。并且每个样本的误差 $\epsilon^{(j)}$ 是独立同分布的，并服从均值为 $0$ ，方差为 $\sigma^2$ 的正态分布。

模型建立

由于误差服从高斯分布，故 $p(\epsilon^{(j)})=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(\epsilon^{(j)})^2}{2\sigma^2})$ ，又 $y^{(j)}=\theta^Tx^{(j)}+\epsilon^{(j)}$ ，故 $p(y^{(j)}|x^{(j)};\theta)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(j)}-\theta^Tx^{(j)})^2}{2\sigma^2})$ ，表示第 $j$ 个样本 $x^{(j)}$ 在参数 $\theta$ 下为真实值的概率。

而我们的目标是要求所有样本在参数 $\theta$ 下为真实值的概率最大，等价于求似然函数： $L(\theta)=\prod_{i=1}^mp(y^{(j)}|x^{(j)};\theta)=\prod_{i=1}^m\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(j)}-\theta^Tx^{(j)})^2}{2\sigma^2})$ 的最大值。

模型求解

对 $L(\theta)$ 取对数，则
$ln(L(\theta))=ln(\prod_{i=1}^m\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(j)}-\theta^Tx^{(j)})^2}{2\sigma^2})).$
等式右边拆开得：
$ln(L(\theta))=mln(\frac{1}{\sqrt{2\pi}\sigma}) - \frac{1}{\sigma^2}\frac{1}{2}\sum_{i=1}^m(y^{(j)}-\theta^Tx^{(j)})^2.$

由于等式右边 $mln(\frac{1}{\sqrt{2\pi}\sigma})$ 为常数，要使得似然函数 $L(\theta)$ 最大，故问题转化为极小化 $J(\theta)=\frac{1}{2}\sum_{i=1}^m(y^{(j)}-\theta^Tx^{(j)})^2$ ，而 $J(\theta)$ 就是我们熟悉的最小二乘法。

下面是求解过程：
$min:J(\theta)=\frac{1}{2}\sum_{i=1}^m(y^{(j)}-\theta^Tx^{(j)})^2.$

令 $X=(x^1,x^2,x^3,\cdots,x^m)^T$ ，其中 $x^j=(1,x_1^j,x_2^j,x_3^j,\cdots,x_n^j)^T,(j=1,2,3,\cdots,m)$ ，则 $X$ 为 $m$ 行 $n + 1$ 列矩阵。

$J(\theta)$ 对 $\theta$ 求偏导：
$\Delta_\theta J(\theta)$
$=\Delta_\theta(\frac{1}{2}\sum_{i=1}^m(y^{(j)}-\theta^Tx^{(j)})^2)$
$=\Delta_\theta(\frac{1}{2}(X\theta-y)^T(X\theta-y))$
$=\Delta_\theta(\frac{1}{2}(\theta^TX^T-y^T)(X\theta-y))$
$=\Delta_\theta(\frac{1}{2}(\theta^TX^TX\theta-\theta^TX^Ty-y^TX\theta+y^Ty))$
$=\frac{1}{2}(2X^TX\theta-X^Ty-(y^TX)^T)$
$=X^TX\theta-X^Ty.$
令偏导等于 $0$ ，则
$\theta=(X^TX)^{-1}X^Ty.$

模型应用

根据问题背景可知， $n=2,m=5,y=(20000,70000,35000,50000,85000)^T,$
$\left[ \begin{matrix} 1 & 4000 & 25 \\ 1 & 8000 & 30 \\ 1 & 5000 & 28 \\ 1 & 7500 & 33 \\ 1 & 12000 & 40 \\ \end{matrix} \right]$

MATLAB求解代码：

clc,clear;
X = [1 , 4000 , 25;
1 , 8000 , 30;
1 , 5000 , 28;
1 , 7500 , 33;
1 , 12000 , 40];
y = [20000;70000;35000;50000;85000];
theta = inv(X'*X)*X'*y

根据上述模型结论可解得 $\theta=(62005,15,-3760)^T.$

故可得该问题线性回归模型为： $y(x)=62005 + 15x_1 -3760x_2$ 。

工资	年龄	额度	额度预测值
4000	25	20000	28005
8000	30	70000	69205
5000	28	35000	31725
7500	33	50000	50425
12000	40	85000	91605

模型评估

从表中可以看到，有些值预测的误差还是比较小的，像额度70000时，预测为69205。该模型只是用线性方法取回归，而大多数模型是非线性的。所以我们为了增加模型的准确性，就需要去研究非线性模型。

模型还存在一个问题，模型的结论为： $\theta=(X^TX)^{-1}X^Ty$ ，需要求 $X^TX$ 的逆 $X^TX)^{-1}$ ,而实际问题中大多数 $X^TX$ 是不可逆的，这就导致可以解出多个 $\theta$ 。

模型的目标是 $min:J(\theta)=\frac{1}{2}\sum_{i=1}^m(y^{(j)}-\theta^Tx^{(j)})^2$ 。

由于 $m$ 是常数，故目标等价于 $min:J(\theta)=\frac{1}{2m}\sum_{i=1}^m(\theta^Tx^{(j)}-y^{(j)})^2$ 。这时我们还可以利用 梯度下降法 对 $\theta$ 进行迭代求解，就不需要求解逆矩阵了。考虑其中的一种 批量梯度下降法 。

$J(\theta)$ 对 $\theta_i$ 求偏导：
$\frac{\delta J(\theta)}{\delta \theta_i}=-\frac{1}{m}\sum_{j=1}^m(y^{(j)}-\theta^Tx^{(j)})x_i^j,$
$\theta$ 的更新公式( $\alpha$ 为收敛速度，一般取值为0到1之间)：
$\theta_{i}^{'}=\theta_i-\alpha*\frac{\delta J(\theta)}{\delta \theta_i}.$

（批量梯度下降法详细代码步骤见下一篇文章，发出后第一时间更新。谢谢支持，希望对您有用，有问题可评论回复！）

run....

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之线性回归原理分析

问题背景假设银行根据你的工资水平和年龄来确定给你贷款的额度。目标：在已知工资和年龄的情况下，预测银行会贷款给你多少钱。并且已知如下数据。工资年龄额度40002520000800030700005000283500075003350000120004085000问题分析本问题的额度只受工资水平和年龄的影响，这里存在两个自变量工资 x1x_1x1 和年龄 x2x_2x2 ，一个因变量额度 y(x)y(x)y(x) 。我们容易想到最
复制链接

扫一扫