多元线性模型(含公式推导)-回归-监督学习-机器学习

最新推荐文章于 2024-04-29 09:20:05 发布

大奸猫

最新推荐文章于 2024-04-29 09:20:05 发布

阅读量1k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/yeziand01/article/details/80720037

版权

机器学习专栏收录该内容

25 篇文章 1 订阅

订阅专栏

假设某个体 $x$ 有 $d$ 个特征，即 $x=(x^{1},x^{2},...,x^{d})$ ， $x^{i}$ 是第i个特征，线性模型(linear model)试图通过特征的线性组合得到预测值，即

f (x) = w T x + b = w 1 x 1 + w 2 x 2 + . . . + w d x d + b

$f(x)=w^{T}x+b=w_{1}x^{1}+w_{2}x^{2}+...+w_{d}x^{d}+b$ 其中当

wi w i $w_{i}$ 是第i个特征的权重，既能调节特征的量纲，也能显示该特征对预测值的重要程度；

wT w T $w^{T}$ =

（w1，w2，...，wd）（ w 1 ， w 2 ， . . . ， w d ） $（w_{1}，w_{2}，...，w_{d}）$ ；

xT x T $x^{T}$ =

（x1，x2，...，xd）（ x 1 ， x 2 ， . . . ， x d ） $（x_{1}，x_{2}，...，x_{d}）$ ；

b b $b$ 代表预测值中非

x

$x$ 所能影响的那部分；当

d=1 d = 1 $d=1$ 时，便是最简单的线性模型

f(x)=wx+b f ( x ) = w x + b $f(x)=wx+b$ ；

//是否能有个好的例子

只要能求出 $w$ 和 $b$ ，便能得到线性模型，该如何求得 $w$ 和 $b$ 呢？

假设训练数据集有n个个体，即 $D=\left \{ (x_{1},y_{1}), (x_{2},y_{2}),..., (x_{n},y_{n}) \right \}$ ， $x_{i}$ 代表第 $i$ 个个体， $y_{i}$ 代表第 $i$ 个个体所对应的真实值。

一. $f(x)=wx+b$

天下难事必作于易，天下大事必作于细 —— 老子让我们从最简单的线性模型

f(x)=wx+b f ( x ) = w x + b $f(x)=wx+b$ 入手，即假设每个个体只有一个特征。我们希望预测值

f(xi) f ( x i ) $f(x_{i})$ 和真实值

yi y i $y_{i}$ 尽可能接近，该如何衡量它们的差异呢？
直观来说，我们可以有两种方案：

1)|f(xi)−yi| 1 ) | f ( x i ) − y i | $1) |f(x_{i})-y_{i}|$

2)(f(xi)−yi)2 2 ) ( f ( x i ) − y i ) 2 $2)(f(x_{i})-y_{i})^{2}$
方案2便是高斯的最小二乘法(least square method)。我们把所有个体的预测值和真实值之间的差异加总:

g (w, b) = \sum i = 1 n (f (x i) - y i) 2 = \sum i = 1 n (w x i + b - y i) 2

$g(w,b)=\sum_{i=1}^{n}(f(x_{i})-y_{i})^{2}=\sum_{i=1}^{n}(wx_{i}+b-y_{i})^{2}$ 我们的目标是求出

w w $w$ 和

b

$b$ ，让

g(w,b) g ( w , b ) $g(w,b)$ 取得最小值。因此我们可以用偏导数求解：

⎧ ⎩ ⎨ \partial g ( w , b ) \partial w = 0 \partial g ( w , b ) \partial b = 0

$\left\{\begin{matrix} \frac{\partial g(w,b)}{\partial w}=0\\ \frac{\partial g(w,b)}{\partial b}=0 \end{matrix}\right.$
解出：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ w = \sum n i = 1 y i ( x i - x ¯ ) \sum n i = 1 x 2 i - n x ¯ 2 b = y ¯ - w x ¯ x ¯ = 1 n \sum n i = 1 x i y ¯ = 1 n \sum n i = 1 y i

$\left\{\begin{matrix} w=\frac{\sum_{i=1}^{n}y_{i}(x_{i}-\bar{x})}{\sum_{i=1}^{n}x_{i}^2-n\bar{x}^{2}}\\ b=\bar{y}-w\bar{x}\\ \bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}\\ \bar{y}=\frac{1}{n}\sum_{i=1}^{n}y_{i} \end{matrix}\right.$
二、

f(x)=wTx+b f ( x ) = w T x + b $f(x)=w^{T}x+b$
接着我们由浅入深，对于多元回归模型

f(x)=wTx+b f ( x ) = w T x + b $f(x)=w^{T}x+b$ ，我们仍是希望让预测值和真实值的差异最小。同样，我们仍然选取最小二乘法来衡量预测值和真实值之间的差异：

g(w,b)=(wTx1+b−y1)2+(wTx2+b−y2)2+...+(wTxn+b−yn)2 g ( w , b ) = ( w T x 1 + b − y 1 ) 2 + ( w T x 2 + b − y 2 ) 2 + . . . + ( w T x n + b − y n ) 2 $g(w,b)=(w^{T}x_{1}+b-y_{1})^{2}+(w^{T}x_{2}+b-y_{2})^{2}+...+(w^{T}x_{n}+b-y_{n})^{2}$

$g(w,b)=[(w^{T}x_{1}+b-y_{1}), (w^{T}x_{2}+b-y_{2}), ..., (w^{T}x_{n}+b-y_{n})]\begin{bmatrix}(w^{T}x_{1}+b-y_{1})\\ (w^{T}x_{2}+b-y_{2})\\ ...\\(w^{T}x_{n}+b-y_{n})\\\end{bmatrix}$

推导：
$\begin{bmatrix}(w^{T}x_{1}+b-y_{1})\\ (w^{T}x_{2}+b-y_{2})\\ ...\\(w^{T}x_{n}+b-y_{n})\\\end{bmatrix}=\begin{bmatrix}(w^{T}x_{1}+b)\\ (w^{T}x_{2}+b)\\ ...\\(w^{T}x_{n}+b)\\\end{bmatrix}-\begin{bmatrix}y_{1}\\ y_{2}\\ ...\\y_{n}\\\end{bmatrix}=\begin{bmatrix}(x_{1}^{T} ,1)(w,b)^{T}\\ (x_{2}^{T} ,1)(w,b)^{T}\\ ...\\(x_{n}^{T} ,1)(w,b)^{T}\\\end{bmatrix}-\begin{bmatrix}y_{1}\\ y_{2}\\ ...\\y_{n}\\\end{bmatrix}=\begin{bmatrix}x_{1}^{T} ,1\\x_{2}^{T} ,1\\ ...\\x_{n}^{T} ,1\\\end{bmatrix}(w^{T},b)-\begin{bmatrix}y_{1}\\ y_{2}\\ ...\\y_{n}\\\end{bmatrix}=X(w^{T},b)-\begin{bmatrix}y_{1}\\ y_{2}\\ ...\\y_{n}\\\end{bmatrix}=X(w^{T},b)-Y=X\tilde{w}-Y$
$注：w^{T}x_{i}+b=(x_{i}^{T},1)\begin{bmatrix}w\\ b\end{bmatrix}=(x_{i}^{T} ,1)(w,b)^{T}；令X=\begin{bmatrix}x_{1}^{T} ,1\\x_{2}^{T} ,1\\ ...\\x_{n}^{T} ,1\\\end{bmatrix},Y=\begin{bmatrix}y_{1}\\ y_{2}\\ ...\\y_{n}\\\end{bmatrix},\tilde{w}=(w^{T},b)$
所以 $g(\tilde{w})=(X\tilde{w}-Y)^{T}(X\tilde{w}-Y)$ ，同样我们希望 $g(\tilde{w})$ 求得最小值，因此我们继续采用偏导数求解：

\partial g ( w ~ ) \partial w ~ = 0

$\frac{\partial g(\tilde{w})}{\partial \tilde{w}}=0$
推导：

g(w~)=(Xw~−Y)T(Xw~−Y)=((Xw~)T−YT)(Xw~−Y)=(Xw~)TXw~−YTXw~−(Xw~)TY+YTY=w~TXTXw~−YTXw~−w~TXTY+YTY g ( w ~ ) = ( X w ~ − Y ) T ( X w ~ − Y ) = ( ( X w ~ ) T − Y T ) ( X w ~ − Y ) = ( X w ~ ) T X w ~ − Y T X w ~ − ( X w ~ ) T Y + Y T Y = w ~ T X T X w ~ − Y T X w ~ − w ~ T X T Y + Y T Y $g(\tilde{w})=(X\tilde{w}-Y)^{T}(X\tilde{w}-Y)=((X\tilde{w})^{T}-Y^{T})(X\tilde{w}-Y)=(X\tilde{w})^{T}X\tilde{w}-Y^{T}X\tilde{w}-(X\tilde{w})^{T}Y+Y^{T}Y=\tilde{w}^{T}X^{T}X\tilde{w}-Y^{T}X\tilde{w}-\tilde{w}^{T}X^{T}Y+Y^{T}Y$
因为

dw~w~Tdw~=2w~,dw~Tdw~=I d w ~ w ~ T d w ~ = 2 w ~ , d w ~ T d w ~ = I $\frac{d\tilde{w}\tilde{w}^{T}}{d\tilde{w}}=2\tilde{w},\frac{d\tilde{w}^{T}}{d\tilde{w}}=I$
所以

∂g(w~)∂w~=2XTXw~−2XTY=0，XTXw~=XTY ∂ g ( w ~ ) ∂ w ~ = 2 X T X w ~ − 2 X T Y = 0 ， X T X w ~ = X T Y $\frac{\partial g(\tilde{w})}{\partial \tilde{w}}=2X^{T}X\tilde{w}-2X^{T}Y=0，X^{T}X\tilde{w}=X^{T}Y$
最后的结果是

w~=(XTX)−1XTY w ~ = ( X T X ) − 1 X T Y $\tilde{w}=(X^{T}X)^{-1}X^{T}Y$

大奸猫

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
多元线性模型(含公式推导)-回归-监督学习-机器学习

假设某个体xxx有ddd个特征，即x=(x1,x2,...,xd)x=(x1,x2,...,xd)x=(x^{1},x^{2},...,x^{d})，xixix^{i}是第i个特征，线性模型(linear model)试图通过特征的线性组合得到预测值，即f(x)=wTx+b=w1x1+w2x2+...+wdxd+bf(x)=wTx+b=w1x1+w2x2+...+wdxd+bf(x)=w^{T...
复制链接

扫一扫