3.1基本形式
给定由d个属性描述的示例
x
=
(
x
1
;
x
2
;
.
.
.
;
x
d
)
x=(x_1;x_2;...;x_d)
x=(x1;x2;...;xd),其中
x
i
x_i
xi是
x
x
x在第
i
i
i个属性的取值。线性模型(linear model)有两种表达方式
普通形式
f
(
x
)
=
w
1
x
1
+
w
2
x
2
+
.
.
.
+
w
3
x
3
+
d
f(x)=w_1x_1+w_2x_2+...+w_3x_3+d
f(x)=w1x1+w2x2+...+w3x3+d向量形式
f
(
x
)
=
w
T
x
+
b
f(x)=w^Tx+b
f(x)=wTx+b
当向量
w
w
w和
b
b
b确定时,模型得以确定。
3.2线性回归
线性回归(linear regression)
试图学得一个线性模型尽可能准确地预测实值输出标记。
均方误差(亦称平方损失square loss)
是回归任务中最常用的性能度量:
(
w
∗
,
b
∗
)
=
a
r
g
m
i
n
(
w
,
b
)
Σ
i
=
1
m
(
f
(
x
i
)
−
y
i
)
2
=
a
r
g
m
i
n
(
w
,
b
)
Σ
i
=
1
m
(
y
i
−
w
x
i
−
b
)
2
(w^*,b^*)=arg min_{(w,b)}\Sigma^m_{i=1}(f(x_i)-y_i)^2\\ =arg min_{(w,b)}\Sigma^m_{i=1}(y_i-wx_i-b)^2
(w∗,b∗)=argmin(w,b)Σi=1m(f(xi)−yi)2=argmin(w,b)Σi=1m(yi−wxi−b)2
基于均方误差最小化进行模型求解的方法为最小二乘法(least wquare method)。
参数估计(parameter etimation)
求解
w
w
w和
b
b
b使均方误差最小化的过程,是线性回归模型的最小二乘“参数估计”,可将
E
w
,
b
E_{w,b}
Ew,b分别对
w
w
w和
b
b
b求偏导,令其偏导等于零,得到
w
w
w和
b
b
b最优解的闭式(closed-form)解。推导过程如下:
最后求解可得
注:此处使用凸函数的知识,验证 E w , b E_{w,b} Ew,b为凸函数后,当关于 w w w和 b b b的偏导都为零时为最优解。参考《最优化基础理论与方法》
多元线性回归的向量表示
此时线性模型为
f
(
x
i
)
=
w
T
x
i
+
b
f(x_i)=w^Tx_i+b
f(xi)=wTxi+b,为了将
f
(
x
i
)
f(x_i)
f(xi)转换成两个向量的乘积,我们引入向量
w
^
=
(
w
;
b
)
\hat{w}=(w;b)
w^=(w;b),
x
i
^
=
(
x
i
;
1
)
T
\hat{x_i}=(x_i;1)^T
xi^=(xi;1)T。此时线性模型有:
f
(
x
i
)
=
w
^
T
x
i
^
f(x_i)=\hat{w}^T\hat{x_i}
f(xi)=w^Txi^
将上式带入损失函数,得到
E
w
^
E_{\hat w}
Ew^,可得
w
^
∗
=
a
r
g
w
^
∗
m
i
n
(
y
−
X
w
^
)
T
(
y
−
X
w
^
)
\hat{w}^*=arg_{\hat{w}^*}min(y-X\hat{w})^T(y-X\hat{w})
w^∗=argw^∗min(y−Xw^)T(y−Xw^)
E
w
^
E_{\hat w}
Ew^对
w
^
\hat{w}
w^求导,使其导数为零,得到
w
^
\hat w
w^
∂
E
w
^
∂
w
^
=
2
X
T
(
X
w
^
−
y
)
\frac{\partial E_{\hat w}}{\partial \hat{w}}=2X^T (X\hat w-y)
∂w^∂Ew^=2XT(Xw^−y)
w
^
∗
=
(
X
T
X
)
−
1
X
T
y
\hat w^*=(X^TX)^{-1}X^Ty
w^∗=(XTX)−1XTy
最终有多元线性回归模型
f
(
x
^
i
)
=
x
^
i
T
(
X
T
X
)
−
1
X
T
y
f(\hat x_i)=\hat x_i^T(X^TX)^{-1}X^Ty
f(x^i)=x^iT(XTX)−1XTy
注:现实任务中我们会一道大量的变量,导致 X X X的列数多于行数, X T X X^TX XTX不满秩,此时可以解出多个 w ^ \hat w w^,引入正则化(regularization)项,选择一个解作为输出。
广义线性回归模型(generalized linear model)
可将线性模型中
x
x
x和
y
y
y替换为他们的衍生物,例如
ln
y
\ln y
lny,其表达式为:
y
=
g
−
1
(
w
T
x
+
b
)
y=g^{-1}(w^Tx+b)
y=g−1(wTx+b)
我们称
g
(
⋅
)
g(·)
g(⋅)为联系函数(link function).
3.3对数几率回归
基本思想
找一个单调可微函数将分类任务的真实标记
y
y
y与线性回归模型的预测值联系起来.最理想的是单位阶跃模型,但不连续, 不能直接作为
g
−
(
⋅
)
g^-(·)
g−(⋅). 我们希望寻找一个替代函数(surrogate function), 本文为对数几率函数(logistic function):
y
=
1
1
+
e
−
z
y=\frac{1}{1+e^{-z}}
y=1+e−z1
将对数几率函数作为
g
−
(
⋅
)
g^-(·)
g−(⋅)带入广义线性模型, 得到
y
=
1
1
+
e
−
(
w
T
x
+
b
)
y=\frac{1}{1+e^{-(w^Tx+b)}}
y=1+e−(wTx+b)1
ln
y
1
−
y
=
w
T
x
+
b
\ln \frac{y}{1-y}=w^Tx+b
ln1−yy=wTx+b
如果将
y
y
y是为样本
x
x
x为正例的可能性, 则
1
−
y
1-y
1−y是其为反例的可能性, 二者比值被称为几率odds
y
1
−
y
\frac {y}{1-y}
1−yy, 反映正例的相对可能性. 几率的对数被称为对数几率log odds
ln
y
1
−
y
\ln \frac{y}{1-y}
ln1−yy
这个模型是用线性回归模型的预测结果去逼近真实标记的对数几率,模型被称为 “对数几率回归” ,这是一种分类学习方法
参数估计
将
y
y
y改写为概率估计
p
(
y
=
1
∣
x
)
p(y=1|x)
p(y=1∣x),则模型可改写为
ln
p
(
y
=
1
∣
x
)
p
(
y
=
0
∣
x
)
=
w
T
x
+
b
\ln \frac{p(y=1|x)}{p(y=0|x)}=w^Tx+b
lnp(y=0∣x)p(y=1∣x)=wTx+b
显然,
p
(
y
=
1
∣
x
)
=
e
w
T
x
+
b
1
+
e
w
T
x
+
b
p(y=1|x)=\frac {e^{w^Tx+b}}{1+e^{w^Tx+b}}
p(y=1∣x)=1+ewTx+bewTx+b
p
(
y
=
0
∣
x
)
=
1
1
+
e
w
T
x
+
b
p(y=0|x)=\frac {1}{1+e^{w^Tx+b}}
p(y=0∣x)=1+ewTx+b1
我们可以通过极大似然估计确定
w
w
w和
b
b
b
极大似然估计是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值.
L ( w , b ) = Π i = 1 m L(w,b)=\Pi ^{m}_{i=1} L(w,b)=Πi=1m