第三章,线性模型
3.1基本形式
线性模型试图学得一个通过属性的线性组合来进行预测的函数,即
f
(
x
)
=
w
1
x
1
+
w
2
x
2
+
w
3
x
3
+
⋯
+
w
d
x
d
+
b
f(\boldsymbol x)=w_1x_1+w_2x_2+w_3x_3+\dots+w_dx_d+b
f(x)=w1x1+w2x2+w3x3+⋯+wdxd+b
一般用向量形式写成
f
(
x
)
=
w
T
x
+
b
f(\boldsymbol x)=\boldsymbol {w^\mathrm{ T } x}+b
f(x)=wTx+b
其中
x
\boldsymbol x
x是由
d
d
d个属性描述的示例。
x
=
(
x
1
;
x
2
;
…
;
x
d
)
\boldsymbol x=(x_1;x_2;\dots;x_d)
x=(x1;x2;…;xd),其中
x
i
x_i
xi是
x
\boldsymbol x
x在第
i
i
i个属性上的取值.只要学得了
w
\boldsymbol w
w和
b
b
b,模型就得以确定了。
优点:
w
\boldsymbol w
w能直观表达各个属性在预测中的重要性,依次线性模型有很好的可解释性
3.2线性回归
3.2.1概述
给定数据集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x m , y m ) } D=\{(\boldsymbol x_1,y_1),(\boldsymbol x_2,y_2),\dots,(\boldsymbol x_m,y_m)\} D={(x1,y1),(x2,y2),…,(xm,ym)}其中 x i = ( x i 1 ; x i 2 ; … ; x i d ) , y i ∈ R \boldsymbol x_i=(x_{i1};x_{i2};\dots ;x_{id}),y_i \in\mathbb{R} xi=(xi1;xi2;…;xid),yi∈R.“线性回归”试图学得一个线性模型以尽可能准确地预测实值输出标记。
3.2.2一元线性回归
考虑最简单的情形,输入的属性数目只有一个,这个条件下的线性回归任务就是一元线性回归
则线性回归试图学得
f
(
x
i
)
=
w
x
i
+
b
f(x_i)=wx_i+b
f(xi)=wxi+b,使得
f
(
x
i
)
≃
y
i
f(x_i)\simeq y_i
f(xi)≃yi.
3.2.2.1 最小二乘法
为了使
f
(
x
i
)
f(x_i)
f(xi)尽量接近
y
i
y_i
yi,我们选择让均方误差最小化,即
(
w
∗
,
b
∗
)
=
arg min
(
w
∗
,
b
∗
)
∑
i
=
1
m
(
f
(
x
i
)
−
y
i
)
2
=
arg min
(
w
∗
,
b
∗
)
∑
i
=
1
m
(
w
x
i
+
b
−
y
i
)
2
(w^*,b^*)=\argmin \limits_{(w^*,b^*)}{\sum\limits _{i=1}^{m}(f({x_i})-y_i)^{2}}\\ =\argmin \limits_{(w^*,b^*)}{\sum\limits _{i=1}^{m}(wx_i+b-y_i)^{2}}
(w∗,b∗)=(w∗,b∗)argmini=1∑m(f(xi)−yi)2=(w∗,b∗)argmini=1∑m(wxi+b−yi)2
均方误差有非常好的几何意义,它对应了欧式距离。基于均方误差最小化来进行模型求解的方法就是“最小二乘法”。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧式距离最小。求解
w
w
w和
b
b
b使
E
(
w
,
b
)
E_{(w,b)}
E(w,b)最小化的过程,称为线性回归模型最小二乘“参数估计”。我们可以将
E
(
w
,
b
)
E_{(w,b)}
E(w,b)分别对
w
w
w和
b
b
b求导得到
∂
E
(
w
,
b
)
∂
w
=
2
(
w
∑
i
=
1
m
x
i
2
−
∑
i
=
1
m
(
y
i
−
b
)
x
i
)
,
\frac{\partial E_{(w,b)}}{\partial w}=2( w\sum\limits_{i=1}^mx_i^2-\sum\limits_{i=1}^m(y_i-b)x_i),
∂w∂E(w,b)=2(wi=1∑mxi2−i=1∑m(yi−b)xi),
∂
E
(
w
,
b
)
∂
b
=
2
(
m
b
−
∑
i
=
1
m
(
y
i
−
w
x
i
)
)
,
\frac{\partial E_{(w,b)}}{\partial b}=2( mb-\sum\limits_{i=1}^m(y_i-wx_i)),
∂b∂E(w,b)=2(mb−i=1∑m(yi−wxi)),
然后令导数值为零可
w
w
w和
b
b
b的闭式解
w
=
∑
i
=
1
m
y
i
(
x
i
−
x
ˉ
i
)
∑
i
=
1
m
x
i
2
−
1
m
(
∑
i
=
1
m
x
i
)
2
,
w= \frac{\sum\limits_{i=1}^my_i(x_i-\bar x_i)}{\sum\limits_{i=1}^mx_i^2-\frac{1}{m}(\sum\limits_{i=1}^mx_i)^2},
w=i=1∑mxi2−m1(i=1∑mxi)2i=1∑myi(xi−xˉi),
b
=
1
m
∑
i
=
1
m
(
y
i
−
w
x
i
)
,
b=\frac{1}{m}\sum\limits_{i=1}^{m}(y_i-wx_i),
b=m1i=1∑m(yi−wxi),
其中
x
ˉ
=
1
m
∑
i
=
1
m
x
i
\bar x=\frac{1}{m}\sum\limits_{i=1}^{m}x_i
xˉ=m1i=1∑mxi为
x
x
x的均值.
3.2.2.2 极大似然估计
已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。极大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的参数,所以干脆就把这个参数作为估计的真实值
现假设一批观测样品符合正态分布
X
∼
N
(
μ
,
σ
2
)
X\sim N(\mu,\sigma^2)
X∼N(μ,σ2)其中
μ
\mu
μ,
σ
\sigma
σ为待估计的参数值,用极大似然估计法估计
μ
,
σ
\mu,\sigma
μ,σ.
第一步:写出随机变量X的概率密度函数,
p
(
x
;
μ
,
σ
2
)
=
1
2
π
σ
exp
(
−
(
x
−
μ
)
2
2
σ
2
)
p(x;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(x-\mu)^2}{2\sigma^2})
p(x;μ,σ2)=2πσ1exp(−2σ2(x−μ)2)
第二步:写出似然函数
L
(
μ
,
σ
2
)
=
∏
i
=
1
n
p
(
x
i
;
μ
,
σ
2
)
=
∏
i
=
1
n
1
2
π
σ
exp
(
−
(
x
i
−
μ
)
2
2
σ
2
)
L(\mu,\sigma^2)=\prod\limits_{i=1}^{n}p(x_i;\mu,\sigma^2)=\prod\limits_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(x_i-\mu)^2}{2\sigma^2})
L(μ,σ2)=i=1∏np(xi;μ,σ2)=i=1∏n2πσ1exp(−2σ2(xi−μ)2)
第三步:求出使 取到最大值的
μ
\mu
μ,
σ
\sigma
σ。
假设线性回归为以下模型:
y
=
w
x
+
b
+
ϵ
y=wx+b+\epsilon
y=wx+b+ϵ
其中
ϵ
\epsilon
ϵ符合正态分布
X
∼
(
0
,
σ
2
)
X\sim(0,\sigma^2)
X∼(0,σ2)
则对应的概率密度函数为
p
(
ϵ
)
=
1
2
π
σ
exp
(
−
ϵ
2
2
σ
2
)
p(\epsilon)=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{\epsilon^2}{2\sigma^2})
p(ϵ)=2πσ1exp(−2σ2ϵ2)
将
ϵ
=
y
−
(
w
x
+
b
)
\epsilon=y-(wx+b)
ϵ=y−(wx+b)代入得
p
(
y
)
=
1
2
π
σ
exp
(
−
(
y
−
(
w
x
+
b
)
)
2
2
σ
2
)
p(y)=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(y-(wx+b))^2}{2\sigma^2})
p(y)=2πσ1exp(−2σ2(y−(wx+b))2)
可以看出
y
∼
N
(
w
x
+
b
,
σ
2
)
y\sim N(wx+b,\sigma^2)
y∼N(wx+b,σ2),则我们可以通过极大似然估计来估计
w
w
w和
b
b
b的值。
L
(
w
,
b
)
=
∏
i
=
1
m
p
(
y
i
)
=
∏
i
=
1
m
1
2
π
σ
exp
(
−
(
y
i
−
(
w
x
i
+
b
)
)
2
2
σ
2
)
L(w,b)=\prod_{i=1}^{m}p(y_i)=\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(y_i-(wx_i+b))^2}{2\sigma^2})
L(w,b)=i=1∏mp(yi)=i=1∏m2πσ1exp(−2σ2(yi−(wxi+b))2)
ln
L
(
w
,
b
)
=
∑
i
=
1
m
ln
1
2
π
σ
−
∑
i
=
1
m
(
y
i
−
(
w
x
i
+
b
)
)
2
2
σ
2
\ln L(w,b)=\sum_{i=1}^{m}\ln\frac{1}{\sqrt{2\pi}\sigma}-\sum_{i=1}^{m}\frac{(y_i-(wx_i+b))^2}{2\sigma^2}
lnL(w,b)=i=1∑mln2πσ1−i=1∑m2σ2(yi−(wxi+b))2
可以看出,为了使
ln
L
(
w
,
b
)
\ln L(w,b)
lnL(w,b)取得最大值,只需要使
∑
i
−
1
m
(
y
i
−
(
w
x
i
+
b
)
)
2
\sum_{i-1}^{m}(y_i-(wx_i+b))^2
∑i−1m(yi−(wxi+b))2取最小值。此时可以发现这和“最小二乘法”殊途同归,变成了求解“最小二乘法”的问题。
3.3.3多元线性回归
3.3.3.1 概述
更一般的情形是如开头所述的数据集
D
D
D,样本由
d
d
d个属性描述,此时我们试图学得
f
(
x
i
)
=
w
T
x
i
+
b
f(\boldsymbol x_i)=\boldsymbol w^\mathrm{ T }\boldsymbol x_i+b
f(xi)=wTxi+b使得
f
(
x
i
)
≃
y
i
f(\boldsymbol x_i)\simeq y_i
f(xi)≃yi,这称为“多元线性回归”
我们可以类似的用最小二乘法来对
w
\boldsymbol w
w和
b
b
b进行估计
基本思路与一元线性回归并无多大区别
3.3.3.2 由最小二乘法导出损失函数 E w ^ E_ \boldsymbol {\hat w} Ew^
先将 w \boldsymbol w w和 b b b组合成 w ^ \boldsymbol {\hat w} w^
f ( x i ) = w T x i + b f(\boldsymbol x_i)=\boldsymbol w^\mathrm{ T }\boldsymbol x_i+b f(xi)=wTxi+b
f
(
x
i
)
=
(
w
1
w
2
…
w
d
)
(
x
i
1
x
i
2
⋮
x
i
d
)
+
b
=
w
1
x
i
1
+
w
2
x
i
2
+
⋯
+
w
d
x
i
d
+
b
=
w
1
x
i
1
+
w
2
x
i
2
+
⋯
+
w
d
x
i
d
+
w
d
+
1
⋅
1
=
(
w
1
w
2
…
w
d
w
d
+
1
)
(
x
i
1
x
i
2
⋮
x
i
d
1
)
f(\boldsymbol x_i)=(w_1\ w_2\dots w_d ) \begin{pmatrix} x_{i1} \\x_{i2} \\ \vdots\\x_{id} \end{pmatrix}+b \\=w_1x_{i1}+w_2x_{i2}+\dots+w_dx_{id}+b \\ =w_1x_{i1}+w_2x_{i2}+\dots+w_dx_{id}+w_{d+1}\cdot 1 \\=(w_1\ w_2\dots w_d \ w_{d+1} ) \begin{pmatrix} x_{i1} \\x_{i2} \\ \vdots\\x_{id}\\1 \end{pmatrix}
f(xi)=(w1 w2…wd)⎝⎜⎜⎜⎛xi1xi2⋮xid⎠⎟⎟⎟⎞+b=w1xi1+w2xi2+⋯+wdxid+b=w1xi1+w2xi2+⋯+wdxid+wd+1⋅1=(w1 w2…wd wd+1)⎝⎜⎜⎜⎜⎜⎛xi1xi2⋮xid1⎠⎟⎟⎟⎟⎟⎞
f
(
x
^
i
)
=
w
^
T
x
^
i
f(\boldsymbol {\hat x_i})=\boldsymbol {\hat w}^\mathrm{ T } \boldsymbol {\hat x_i}
f(x^i)=w^Tx^i
这样就把要求解的对象向量化了
由最小二乘法得
E
w
^
=
∑
i
=
1
m
(
y
i
−
f
(
x
^
i
)
)
2
=
∑
i
=
1
m
(
y
i
−
w
^
T
x
^
i
)
2
E_\boldsymbol{\hat w}=\sum_{i=1}^{m}(y_i-f(\boldsymbol {\hat x_i}))^2=\sum_{i=1}^{m}(y_i-\boldsymbol {\hat w}^\mathrm{ T } \boldsymbol {\hat x_i})^2
Ew^=i=1∑m(yi−f(x^i))2=i=1∑m(yi−w^Tx^i)2
下面将其向量化,去求和符号,便于矩阵运算,也使写出代码比较简洁
E
w
^
=
∑
i
=
1
m
(
y
i
−
w
^
T
x
^
i
)
2
=
(
y
1
−
w
^
T
x
^
1
)
2
+
(
y
2
−
w
^
T
x
^
2
)
2
+
⋯
+
(
y
m
−
w
^
T
x
^
m
)
2
E_\boldsymbol{\hat w}=\sum_{i=1}^{m}(y_i-\boldsymbol {\hat w}^\mathrm{ T } \boldsymbol {\hat x_i})^2=(y_1-\boldsymbol {\hat w}^\mathrm{ T } \boldsymbol {\hat x_1})^2+(y_2-\boldsymbol {\hat w}^\mathrm{ T } \boldsymbol {\hat x_2})^2+\dots+(y_m-\boldsymbol {\hat w}^\mathrm{ T } \boldsymbol {\hat x_m})^2
Ew^=i=1∑m(yi−w^Tx^i)2=(y1−w^Tx^1)2+(y2−w^Tx^2)2+⋯+(ym−w^Tx^m)2
E
w
^
=
(
y
1
−
w
^
T
x
^
1
,
y
2
−
w
^
T
x
^
2
,
…
,
y
m
−
w
^
T
x
^
m
)
(
y
1
−
w
^
T
x
^
1
y
2
−
w
^
T
x
^
2
⋮
y
m
−
w
^
T
x
^
m
)
E_\boldsymbol{\hat w}=(y_1-\boldsymbol {\hat w}^\mathrm{ T } \boldsymbol {\hat x_1},y_2-\boldsymbol {\hat w}^\mathrm{ T } \boldsymbol {\hat x_2},\dots,y_m-\boldsymbol {\hat w}^\mathrm{ T } \boldsymbol {\hat x_m}) \begin{pmatrix} y_1-\boldsymbol {\hat w}^\mathrm{ T } \boldsymbol {\hat x_1}\\y_2-\boldsymbol {\hat w}^\mathrm{ T } \boldsymbol {\hat x_2}\\\vdots\\y_m-\boldsymbol {\hat w}^\mathrm{ T } \boldsymbol {\hat x_m} \end{pmatrix}
Ew^=(y1−w^Tx^1,y2−w^Tx^2,…,ym−w^Tx^m)⎝⎜⎜⎜⎛y1−w^Tx^1y2−w^Tx^2⋮ym−w^Tx^m⎠⎟⎟⎟⎞
其中
(
y
1
−
w
^
T
x
^
1
y
2
−
w
^
T
x
^
2
⋮
y
m
−
w
^
T
x
^
m
)
=
(
y
1
y
2
⋮
y
m
)
−
(
w
^
T
x
^
1
w
^
T
x
^
2
⋮
w
^
T
x
^
m
)
=
(
y
1
y
2
⋮
y
m
)
−
(
x
^
1
T
w
^
x
^
2
T
w
^
⋮
x
^
m
T
w
^
)
\begin{pmatrix} y_1-\boldsymbol {\hat w}^\mathrm{ T } \boldsymbol {\hat x_1}\\y_2-\boldsymbol {\hat w}^\mathrm{ T } \boldsymbol {\hat x_2}\\\vdots\\y_m-\boldsymbol {\hat w}^\mathrm{ T } \boldsymbol {\hat x_m}\end{pmatrix} =\begin{pmatrix}y_1 \\ y_2 \\\vdots\\y_m\end{pmatrix}-\begin{pmatrix}\boldsymbol {\hat w}^\mathrm{ T } \boldsymbol {\hat x_1} \\\boldsymbol {\hat w}^\mathrm{ T } \boldsymbol {\hat x_2} \\\vdots\\\boldsymbol {\hat w}^\mathrm{ T } \boldsymbol {\hat x_m}\end{pmatrix} =\begin{pmatrix}y_1 \\ y_2 \\\vdots\\y_m\end{pmatrix}-\begin{pmatrix}\boldsymbol {\hat x_1^\mathrm{ T } \boldsymbol {\hat w} }\\\boldsymbol {\hat x_2^\mathrm{ T } \boldsymbol {\hat w}} \\\vdots\\\boldsymbol {\hat x_m^\mathrm{ T } \boldsymbol {\hat w}}\end{pmatrix}
⎝⎜⎜⎜⎛y1−w^Tx^1y2−w^Tx^2⋮ym−w^Tx^m⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛y1y2⋮ym⎠⎟⎟⎟⎞−⎝⎜⎜⎜⎛w^Tx^1w^Tx^2⋮w^Tx^m⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛y1y2⋮ym⎠⎟⎟⎟⎞−⎝⎜⎜⎜⎛x^1Tw^x^2Tw^⋮x^mTw^⎠⎟⎟⎟⎞
那么令
y
=
(
y
1
y
2
⋮
y
m
)
,
(
x
^
1
T
w
^
x
^
2
T
w
^
⋮
x
^
m
T
w
^
)
=
(
x
^
1
T
x
^
2
T
⋮
x
^
m
T
)
⋅
w
^
=
(
x
1
T
1
x
2
T
1
⋮
⋮
x
m
T
1
)
⋅
w
^
=
X
⋅
w
^
\boldsymbol y=\begin{pmatrix}y_1 \\ y_2 \\\vdots\\y_m\end{pmatrix}, \begin{pmatrix}\boldsymbol {\hat x_1^\mathrm{ T } \boldsymbol {\hat w} }\\\boldsymbol {\hat x_2^\mathrm{ T } \boldsymbol {\hat w}} \\\vdots\\\boldsymbol {\hat x_m^\mathrm{ T } \boldsymbol {\hat w}}\end{pmatrix}=\begin{pmatrix}\boldsymbol {\hat x_1^\mathrm{ T } }\\\boldsymbol {\hat x_2^\mathrm{ T }} \\\vdots\\\boldsymbol {\hat x_m^\mathrm{ T }}\end{pmatrix} \cdot \boldsymbol {\hat w}= \begin{pmatrix}\boldsymbol { x_1^\mathrm{ T } } \quad1\\\boldsymbol { x_2^\mathrm{ T }} \quad1\\\vdots\quad\ \ \ \ \vdots\\\boldsymbol { x_m^\mathrm{ T }}\quad1\end{pmatrix} \cdot \boldsymbol {\hat w}\boldsymbol =X\cdot\boldsymbol {\hat w}
y=⎝⎜⎜⎜⎛y1y2⋮ym⎠⎟⎟⎟⎞,⎝⎜⎜⎜⎛x^1Tw^x^2Tw^⋮x^mTw^⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛x^1Tx^2T⋮x^mT⎠⎟⎟⎟⎞⋅w^=⎝⎜⎜⎜⎛x1T1x2T1⋮ ⋮xmT1⎠⎟⎟⎟⎞⋅w^=X⋅w^
所以
(
y
1
−
w
^
T
x
^
1
y
2
−
w
^
T
x
^
2
⋮
y
m
−
w
^
T
x
^
m
)
=
y
−
X
⋅
w
^
\begin{pmatrix} y_1-\boldsymbol {\hat w}^\mathrm{ T } \boldsymbol {\hat x_1}\\y_2-\boldsymbol {\hat w}^\mathrm{ T } \boldsymbol {\hat x_2}\\\vdots\\y_m-\boldsymbol {\hat w}^\mathrm{ T } \boldsymbol {\hat x_m}\end{pmatrix}=\boldsymbol y-X\cdot\boldsymbol {\hat w}
⎝⎜⎜⎜⎛y1−w^Tx^1y2−w^Tx^2⋮ym−w^Tx^m⎠⎟⎟⎟⎞=y−X⋅w^
那么
E
w
^
=
(
y
−
X
⋅
w
^
)
T
(
y
−
X
⋅
w
^
)
E_\boldsymbol{\hat w}=(\boldsymbol y-X\cdot\boldsymbol {\hat w})^\mathrm{ T }(\boldsymbol y-X\cdot\boldsymbol {\hat w})
Ew^=(y−X⋅w^)T(y−X⋅w^)
3.3.3.3 求解 w ^ \hat w w^
w
^
∗
=
arg min
w
^
(
y
−
X
⋅
w
^
)
T
(
y
−
X
⋅
w
^
)
\boldsymbol{\hat w}^*=\argmin_\boldsymbol{\hat w}(\boldsymbol y-X\cdot\boldsymbol {\hat w})^\mathrm{ T }(\boldsymbol y-X\cdot\boldsymbol {\hat w})
w^∗=w^argmin(y−X⋅w^)T(y−X⋅w^)
求解
w
^
\boldsymbol{\hat w}
w^仍然是一个多元函数求最值点的问题,同样也是凸函数求最值的问题。
推导思路
1.证明
E
w
^
=
(
y
−
X
⋅
w
^
)
T
(
y
−
X
⋅
w
^
)
E_\boldsymbol{\hat w}=(\boldsymbol y-X\cdot\boldsymbol {\hat w})^\mathrm{ T }(\boldsymbol y-X\cdot\boldsymbol {\hat w})
Ew^=(y−X⋅w^)T(y−X⋅w^)是关于
w
^
\boldsymbol{\hat w}
w^的凸函数
即证明
E
w
^
E_\boldsymbol{\hat w}
Ew^的海塞矩阵为半正定矩阵或正定矩阵
我们假定当
X
T
X
\boldsymbol X^\mathrm{T}\boldsymbol X
XTX为满秩矩阵或正定矩阵,那么
E
w
^
=
(
y
−
X
⋅
w
^
)
T
(
y
−
X
⋅
w
^
)
E_\boldsymbol{\hat w}=(\boldsymbol y-X\cdot\boldsymbol {\hat w})^\mathrm{ T }(\boldsymbol y-X\cdot\boldsymbol {\hat w})
Ew^=(y−X⋅w^)T(y−X⋅w^)是关于
w
^
\boldsymbol{\hat w}
w^的凸函数得证。我们
2.用凸函数求最值的思路求解出
w
^
\boldsymbol{\hat w}
w^
当
X
T
X
\boldsymbol X^\mathrm{T}\boldsymbol X
XTX为满秩矩阵时我们能解出唯一的
w
^
\boldsymbol{\hat w}
w^
当
X
T
X
\boldsymbol X^\mathrm{T}\boldsymbol X
XTX不是满秩矩阵时,例如在许多任务中我们会遇到变量数大于样例数的情况,导致X的列数多与行数,这样
X
T
X
\boldsymbol X^\mathrm{T}\boldsymbol X
XTX显然不满秩,此时可解出多个
w
^
\boldsymbol{\hat w}
w^,他们都能使均方误差最小化,选择哪个解作为输出,将由学习算法的归纳偏好决定,常见的做法是引入正则项。
- 归纳偏好是啥?
- 引入正则项是什么意思?
以后再填坑
3.3对数几率回归
3.3.1 线性模型的推广
首先思考一下上面的线性回归模型,把
y
=
w
T
x
+
b
y=\boldsymbol w^\mathrm{ T }\boldsymbol x+b
y=wTx+b推广一下,求
y
=
g
(
w
T
x
+
b
)
y=g(\boldsymbol w^\mathrm{ T }\boldsymbol x+b)
y=g(wTx+b)的问题.
比如说
y
=
(
w
T
x
+
b
)
2
y=(\boldsymbol w^\mathrm{ T }\boldsymbol x+b)^2
y=(wTx+b)2
看似这不是线性回归问题,但我们仍然可以将其转化为我们熟悉的线性回归问题,那就是将标记转为原来开方后的值。
y
=
w
T
x
+
b
\sqrt{y}=\boldsymbol w^\mathrm{ T }\boldsymbol x+b
y=wTx+b
一般地,我们能将
y
=
g
−
1
(
w
T
x
+
b
)
y=g^{-1}(\boldsymbol w^\mathrm{ T }\boldsymbol x+b)
y=g−1(wTx+b)的问题转化为
g
(
y
)
=
w
T
x
+
b
g(y)=\boldsymbol w^\mathrm{ T }\boldsymbol x+b
g(y)=wTx+b的线性回归问题,我们将
y
=
g
−
1
(
w
T
x
+
b
)
y=g^{-1}(\boldsymbol w^\mathrm{ T }\boldsymbol x+b)
y=g−1(wTx+b)称为广义的线性模型,其中
g
(
⋅
)
g(\cdot)
g(⋅)为联系函数
3.3.2 单位跃迁函数与对数几率函数
分类任务也可以作为线性模型的推广,以二分类为例,对
z
=
w
T
x
+
b
z=\boldsymbol w^\mathrm{ T }\boldsymbol x+b
z=wTx+b,我们需要把z转化为
0
/
1
0/1
0/1值,那么理想的转化是这样的
f
(
x
)
=
{
0
,
z
<
0
;
0.5
,
z
=
0
;
1
,
z
>
0
;
f(x)=\left\{ \begin{aligned} \quad0,\quad z<0;\\\quad0.5,\quad z=0;\\\quad1,\quad z>0; \end{aligned} \right.
f(x)=⎩⎪⎨⎪⎧0,z<0;0.5,z=0;1,z>0;
这就是“单位跃阶函数”。但它的缺陷是不连续,所以没法直接用作广义线性模型中的
g
−
1
(
⋅
)
g^{-1}(\cdot)
g−1(⋅)为此我们选择了一个能近似单位跃阶函数的替代函数,这里我们选择了对数几率函数
y
=
1
1
+
e
−
z
y=\frac {1}{1+e^{-z}}
y=1+e−z1
将对数几率函数作为
g
−
1
(
⋅
)
g^{-1}(\cdot)
g−1(⋅)建立广义的线性模型
y
=
1
1
+
e
w
T
x
+
b
y=\frac{1}{1+e^{\boldsymbol w^\mathrm{ T }\boldsymbol x+b}}
y=1+ewTx+b1
可化为
ln
y
1
−
y
=
w
T
x
+
b
\ln{\frac{y}{1-y}}=\boldsymbol w^\mathrm{ T }\boldsymbol x+b
ln1−yy=wTx+b
如果把
y
y
y视为样本
x
\boldsymbol x
x作为正例的可能性,则
1
−
y
1-y
1−y是其反例的可能性,两者的比值
y
1
−
y
\frac{y}{1-y}
1−yy称为几率,反映了
x
\boldsymbol x
x作为正例的相对可能性,对几率取对数,就称为“对数几率”
ln
y
1
−
y
\ln \frac{y}{1-y}
ln1−yy
所以说对数几率模型的本质是用线性回归的预测结果去逼近真实标记的对数几率。这种方法的优点如下:
1.直接对分类可能性进行建模,无需事先假设数据分布,避免了假设分布不准确的问题;
2.不仅预测出“类别”,而是得到近似概率预测,对概率辅助决策的任务很有用;
3.对数回归模型需要求解的目标函数是任意阶可导的凸函数,有很好的数学性质,现有的许多数值优化算法都可直接用于求取最优解。
3.3.3 极大似然法估计 w \boldsymbol w w和b
第一步,求出概率质量函数(概率密度函数)
我们将
ln
y
1
−
y
=
w
T
x
+
b
\ln{\frac{y}{1-y}}=\boldsymbol w^\mathrm{ T }\boldsymbol x+b
ln1−yy=wTx+b
中的
y
y
y视为类后验概率估计
p
(
y
=
1
∣
x
)
p(y=1|\boldsymbol x)
p(y=1∣x)那么可以将其重写为
ln
p
(
y
=
1
∣
x
)
p
(
y
=
0
∣
x
)
=
w
T
x
+
b
\ln\frac{p(y=1|\boldsymbol x)}{p(y=0|\boldsymbol x)}=\boldsymbol w^\mathrm{ T }\boldsymbol x+b
lnp(y=0∣x)p(y=1∣x)=wTx+b
倒退回去可得
p
(
y
=
1
∣
x
)
=
e
w
T
x
+
b
1
+
e
w
T
x
+
b
p(y=1|\boldsymbol x)=\frac{e^{\boldsymbol w^\mathrm{ T }\boldsymbol x+b}}{1+e^{\boldsymbol w^\mathrm{ T }\boldsymbol x+b}}
p(y=1∣x)=1+ewTx+bewTx+b
p
(
y
=
0
∣
x
)
=
1
1
+
e
w
T
x
+
b
p(y=0|\boldsymbol x)=\frac{1}{1+e^{\boldsymbol w^\mathrm{ T }\boldsymbol x+b}}
p(y=0∣x)=1+ewTx+b1
为了便于讨论,令
β
=
(
w
;
b
)
,
x
^
=
(
x
;
1
)
\boldsymbol\beta=(\boldsymbol w;b),\hat x=(x;1)
β=(w;b),x^=(x;1)则上式可简写为
p
(
y
=
1
∣
x
^
;
β
)
=
e
β
T
x
^
1
+
e
β
T
x
^
=
p
1
(
x
^
;
β
)
p(y=1|\boldsymbol {\hat x} ;\boldsymbol \beta)=\frac{e^{\boldsymbol \beta^\mathrm{T} \boldsymbol {\hat x}}}{1+e^{\boldsymbol \beta^\mathrm{T} \boldsymbol {\hat x}}}=p_1(\boldsymbol {\hat x} ;\boldsymbol \beta)
p(y=1∣x^;β)=1+eβTx^eβTx^=p1(x^;β)
p
(
y
=
0
∣
x
^
;
β
)
=
1
1
+
e
β
T
x
^
=
p
0
(
x
^
;
β
)
p(y=0|\boldsymbol {\hat x} ;\boldsymbol \beta)=\frac{1}{1+e^{\boldsymbol \beta^\mathrm{T} \boldsymbol {\hat x}}}=p_0(\boldsymbol {\hat x} ;\boldsymbol \beta)
p(y=0∣x^;β)=1+eβTx^1=p0(x^;β)
那么
y
∈
{
0
,
1
}
y \in\{0,1\}
y∈{0,1}的概率质量函数为
p
(
y
∣
x
^
;
β
)
=
y
⋅
p
1
(
x
^
;
β
)
+
(
1
−
y
)
⋅
p
0
(
x
^
;
β
)
p(y|\boldsymbol {\hat x} ;\boldsymbol \beta)=y\cdot p_1(\boldsymbol {\hat x} ;\boldsymbol \beta)+(1-y)\cdot p_0(\boldsymbol {\hat x} ;\boldsymbol \beta)
p(y∣x^;β)=y⋅p1(x^;β)+(1−y)⋅p0(x^;β)
或者为
p
(
y
∣
x
^
;
β
)
=
[
p
1
(
x
^
;
β
)
]
y
[
p
0
(
x
^
;
β
)
]
1
−
y
p(y|\boldsymbol {\hat x} ;\boldsymbol \beta)=[ p_1(\boldsymbol {\hat x} ;\boldsymbol \beta)]^y[p_0(\boldsymbol {\hat x} ;\boldsymbol \beta)]^{1-y}
p(y∣x^;β)=[p1(x^;β)]y[p0(x^;β)]1−y
现用第一种形式进行推导,第二种同理
第二步,写出似然函数
L
(
β
)
=
∏
i
=
1
m
p
(
y
∣
x
^
;
β
)
L(\beta)=\prod \limits_{i=1}^{m}p(y|\boldsymbol {\hat x} ;\boldsymbol \beta)
L(β)=i=1∏mp(y∣x^;β)
对数似然函数为
ℓ
(
w
,
b
)
=
ln
L
(
β
)
=
∑
i
=
1
m
ln
p
(
y
i
∣
x
^
;
β
)
\ell(\boldsymbol w,b)=\ln L(\boldsymbol\beta)=\sum_{i=1}^{m}\ln p(y_i|\boldsymbol {\hat x} ;\boldsymbol \beta)
ℓ(w,b)=lnL(β)=i=1∑mlnp(yi∣x^;β)
ℓ
(
w
,
b
)
=
∑
i
=
1
m
ln
p
(
y
i
∣
x
^
;
β
)
\ell(\boldsymbol w,b)=\sum_{i=1}^{m}\ln p(y_i|\boldsymbol {\hat x} ;\boldsymbol \beta)
ℓ(w,b)=i=1∑mlnp(yi∣x^;β)
于是我们可以通过“极大似然法”来估计
w
\boldsymbol w
w和
b
b
b.
对于给定数据集
{
(
x
i
,
y
i
)
}
i
=
1
m
\{(\boldsymbol x_i,y_i)\}_{i=1}^{m}
{(xi,yi)}i=1m对数回归模型最大化“对数似然”
ℓ
(
w
,
b
)
=
∑
i
=
1
m
ln
y
⋅
p
1
(
x
^
;
β
)
+
(
1
−
y
)
⋅
p
0
(
x
^
;
β
)
\ell(\boldsymbol w,b)=\sum_{i=1}^{m}\ln y\cdot p_1(\boldsymbol {\hat x} ;\boldsymbol \beta)+(1-y)\cdot p_0(\boldsymbol {\hat x} ;\boldsymbol \beta)
ℓ(w,b)=i=1∑mlny⋅p1(x^;β)+(1−y)⋅p0(x^;β)
将
p
1
(
x
^
;
β
)
,
p
0
(
x
^
;
β
)
p_1(\boldsymbol {\hat x} ;\boldsymbol \beta),p_0(\boldsymbol {\hat x} ;\boldsymbol \beta)
p1(x^;β),p0(x^;β)代入上式,化简即可得
3.4线性判别分析(LDA)
LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的,这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。 我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。