机器学习:线性模型
基本形式
一般向量形式为:
f
(
x
)
=
w
T
x
+
b
f(x)=w^Tx+b
f(x)=wTx+b
其中,
w
w
w 表示了
x
x
x 的重要性,称为权重。
线性回归 linear regression
线性回归学习一个线性模型来预测输出.
即, 在一个数据集
D
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
,
(
x
n
,
y
n
)
}
D=\{(x_1, y_1),(x_2,y_2),...,(x_n,y_n)\}
D={(x1,y1),(x2,y2),...,(xn,yn)} 中,对第
i
i
i 个样本有
f
(
x
i
)
=
w
T
x
i
+
b
f(x_i)=w^Tx_i+b
f(xi)=wTxi+b使
f
(
x
i
)
≈
y
i
f(x_i) \approx y_i
f(xi)≈yi
优化
为了让
f
(
x
i
)
≈
y
i
f(x_i) \approx y_i
f(xi)≈yi,就要使二者的差别减小,他们之间的差别用均方误差计算,均方误差对应欧几里得距离。
线性回归问题就转化为求解最小化
f
(
x
i
)
f(x_i)
f(xi) 与
y
i
y_i
yi 的均方误差。
基于均方误差最小化进行模型求解的方法成为最小二乘法(least square method)。
最小二乘法:
在线性回归中,最小二乘法就是试图找到一条直线,使得所有样本到直线上的欧氏距离之和最小。
e
r
r
o
r
=
∑
i
=
0
n
∣
∣
f
(
x
i
)
−
y
i
∣
∣
2
=
∑
i
=
0
n
∣
∣
w
T
x
i
+
b
−
y
i
∣
∣
2
error =\sum_{i=0}^n||f(x_i)-y_i||_2=\sum_{i=0}^n||w^Tx_i+b-y_i||_2
error=i=0∑n∣∣f(xi)−yi∣∣2=i=0∑n∣∣wTxi+b−yi∣∣2当
∂
e
r
r
o
r
∂
w
=
2
∑
i
=
1
n
(
w
x
i
2
−
(
y
i
−
b
)
x
i
)
=
0
∂
e
r
r
o
r
∂
b
=
2
∑
i
=
1
n
(
w
x
i
+
b
−
y
i
)
=
0
\frac{\partial error}{\partial{w}}=2\sum_{i=1}^n(wx_i^2-(y_i-b)x_i)=0\\ \frac{\partial error}{\partial{b}}=2\sum_{i=1}^n(wx_i+b-y_i)=0
∂w∂error=2i=1∑n(wxi2−(yi−b)xi)=0∂b∂error=2i=1∑n(wxi+b−yi)=0就可求得
w
w
w 和
b
b
b ,推导过程如下:
w
∑
i
=
1
m
x
i
2
=
∑
i
=
1
m
(
y
i
−
b
)
x
i
(
1
)
m
b
=
∑
i
=
1
m
(
y
i
−
w
x
i
)
(
2
)
w\sum^m_{i=1}x^2_i=\sum^m_{i=1}(y_i-b)x_i\ \ \ \ \ \ \ (1)\\ mb=\sum^m_{i=1}(y_i-wx_i)\ \ \ \ \ \ \ (2)
wi=1∑mxi2=i=1∑m(yi−b)xi (1)mb=i=1∑m(yi−wxi) (2)
-
首先由 m b = ∑ i = 1 m ( y i − w x i ) mb=\sum^m_{i=1}(y_i-wx_i) mb=∑i=1m(yi−wxi) 得到:
b = 1 m ∑ i = 1 m ( y i − w x i ) b=\frac{1}{m}\sum^m_{i=1}(y_i-wx_i) b=m1∑i=1m(yi−wxi)= 1 m ∑ i = 1 m y i − 1 m ∑ i = 1 m w x i =\frac{1}{m}\sum^m_{i=1}y_i-\frac{1}{m}\sum^m_{i=1}wx_i =m1∑i=1myi−m1∑i=1mwxi
= y ˉ − w x ˉ =\bar{y}-w\bar{x} =yˉ−wxˉ
-
将 b = y ˉ − w x ˉ b=\bar{y}-w\bar{x} b=yˉ−wxˉ 带入 (1) 式:
w ∑ i = 1 m x i 2 = ∑ i = 1 m y i x i − ∑ i = 1 m b x i w\sum^m_{i=1}x^2_i=\sum^m_{i=1}y_ix_i-\sum^m_{i=1}bx_i w∑i=1mxi2=∑i=1myixi−∑i=1mbxi= ∑ i = 1 m y i x i − ∑ i = 1 m ( y ˉ − w x ˉ ) x i =\sum^m_{i=1}y_ix_i-\sum^m_{i=1}(\bar{y}-w\bar{x})x_i =∑i=1myixi−∑i=1m(yˉ−wxˉ)xi
= ∑ i = 1 m y i x i − y ˉ ∑ i = 1 m x i + w x ˉ ∑ i = 1 m x i =\sum^m_{i=1}y_ix_i-\bar{y}\sum^m_{i=1}x_i+w\bar{x}\sum^m_{i=1}x_i =∑i=1myixi−yˉ∑i=1mxi+wxˉ∑i=1mxi
则,
w ∑ i = 1 m x i 2 − w x ˉ ∑ i = 1 m x i = ∑ i = 1 m y i x i − y ˉ ∑ i = 1 m x i w\sum^m_{i=1}x^2_i-w\bar{x}\sum^m_{i=1}x_i=\sum^m_{i=1}y_ix_i-\bar{y}\sum^m_{i=1}x_i w∑i=1mxi2−wxˉ∑i=1mxi=∑i=1myixi−yˉ∑i=1mxiw ( ∑ i = 1 m x i 2 − x ˉ ∑ i = 1 m x i ) = ∑ i = 1 m y i x i − y ˉ ∑ i = 1 m x i w(\sum^m_{i=1}x^2_i-\bar{x}\sum^m_{i=1}x_i)=\sum^m_{i=1}y_ix_i-\bar{y}\sum^m_{i=1}x_i w(∑i=1mxi2−xˉ∑i=1mxi)=∑i=1myixi−yˉ∑i=1mxi
得到, w = ∑ i = 1 m y i x i − y ˉ ∑ i = 1 m x i ( ∑ i = 1 m x i 2 − x ˉ ∑ i = 1 m x i ) ( 3 ) w=\frac{\sum^m_{i=1}y_ix_i-\bar{y}\sum^m_{i=1}x_i}{(\sum^m_{i=1}x^2_i-\bar{x}\sum^m_{i=1}x_i)}\ \ \ \ (3) w=(∑i=1mxi2−xˉ∑i=1mxi)∑i=1myixi−yˉ∑i=1mxi (3)其中 y ˉ = 1 m ∑ i = 1 m y i \bar{y}=\frac{1}{m}\sum^m_{i=1}y_i yˉ=m1∑i=1myi,因此 y ˉ ∑ i = 1 m x i = 1 m ∑ i = 1 m y i ∑ i = 1 m x i = x ˉ ∑ i = 1 m y i ( 4 ) \bar{y}\sum^m_{i=1}x_i=\frac{1}{m}\sum^m_{i=1}y_i\sum^m_{i=1}x_i=\bar{x}\sum^m_{i=1}y_i\ \ \ \ \ (4) yˉi=1∑mxi=m1i=1∑myii=1∑mxi=xˉi=1∑myi (4)又因为 x ˉ = ∑ i = 1 m x i \bar{x}=\sum^m_{i=1}x_i xˉ=∑i=1mxi,因此
x ˉ ∑ i = 1 m x i = 1 m ∑ i = 1 m x i ∑ i = 1 m x i = 1 m ( ∑ i = 1 m x i ) 2 ( 5 ) \bar{x}\sum^m_{i=1}x_i=\frac{1}{m}\sum^m_{i=1}x_i\sum^m_{i=1}x_i=\frac{1}{m}(\sum^m_{i=1}x_i)^2\ \ \ \ \ (5) xˉi=1∑mxi=m1i=1∑mxii=1∑mxi=m1(i=1∑mxi)2 (5)(4),(5)带入(3)得
w = ∑ i = 1 m y i ( x i − x ˉ ) ∑ i = 1 m x i 2 − 1 m ( ∑ i = 1 m x i ) 2 w=\frac{\sum^m_{i=1}y_i(x_i-\bar{x})}{\sum^m_{i=1}x^2_i-\frac{1}{m}(\sum^m_{i=1}x_i)^2} w=∑i=1mxi2−m1(∑i=1mxi)2∑i=1myi(xi−xˉ)
对数线性回归
当输出是在指数尺度上变化时,
l
n
y
=
w
T
x
+
b
lny=w^Tx+b
lny=wTx+b则
y
=
e
w
T
x
+
b
y=e^{w^Tx+b}
y=ewTx+b这就变成了输入到输出的非线性映射,
l
n
(
⋅
)
ln(·)
ln(⋅) 将线性回归模型的预测值与真实标记联系起来。
对数几率回归
在二分类任务中,输出为
y
∈
{
0
,
1
}
y\in\{0,1\}
y∈{0,1}, 需要将线性回归模型产生结果转为0/1。
这里引入对数几率函数,这是一种常见的sigmoid函数。
公式为:
y
=
1
1
+
e
−
z
,
z
=
w
T
+
b
y=\frac{1}{1+e^{-z}}, z=w^T+b
y=1+e−z1,z=wT+b因此,
y
=
1
1
+
e
−
(
w
T
x
+
b
)
y=\frac{1}{1+e^{-(w^Tx+b)}}
y=1+e−(wTx+b)1然而线性回归的一般形式为:
f
(
x
)
=
w
T
+
b
f(x)=w^T+b
f(x)=wT+b则
l
n
y
1
−
y
=
w
T
+
b
ln\frac{y}{1-y}=w^T+b
ln1−yy=wT+b简单证明一下上式:
y = 1 1 + e − ( w T x + b ) = e ( w T x + b ) e ( w T x + b ) + 1 y=\frac{1}{1+e^{-(w^Tx+b)}}=\frac{e^{(w^Tx+b)}}{e^{(w^Tx+b)}+1} y=1+e−(wTx+b)1=e(wTx+b)+1e(wTx+b)
1 − y = = 1 e ( w T x + b ) + 1 1-y==\frac{1}{e^{(w^Tx+b)}+1} 1−y==e(wTx+b)+11
y 1 − y = e ( w T x + b ) \frac{y}{1-y}=e^{(w^Tx+b)} 1−yy=e(wTx+b),两边分别取对数就得到结论。
我们假设
y
y
y 为样本
x
x
x 是正例的概率,则
1
−
y
1-y
1−y 为反例的概率,二者的比值为:
y
1
−
y
\frac{y}{1-y}
1−yy