最小二乘法是做拟合问题的一个常用的方法,最小二乘法的来源是怎样的呢?下面我们一起来探究一下,参考资料—–Andrew Ng 机器学习课程。
回顾一下线性回归问题的优化目标
θ∗=argminθ12∑ni=1(θTxi−yi)2=argminθ12||Xθ−y||2 θ ∗ = a r g m i n θ 1 2 ∑ i = 1 n ( θ T x i − y i ) 2 = a r g m i n θ 1 2 | | X θ − y | | 2 .
注意到偏移项被吸入到了
θ
θ
中。
就直观地理解而言,我们当然希望预测值与真实值之间的误差尽可能小。接下来我们从极大似然估计的方法,来推导出OLS的优化目标。
一般认为:在线性回归问题中,真实值与预测值之间的误差服从 (0,σ2) N ( 0 , σ 2 ) 。
因此令 yi=θTxi+ϵi y i = θ T x i + ϵ i 。那么有 ϵ ϵ ~ (0,σ2) N ( 0 , σ 2 ) ,
显然地,对于只有一个样本 (x1,y1) ( x 1 , y 1 ) 的训练集,我们有
P(y|x;θ)=12π√σe−(θTx1−y1)22σ2 P ( y | x ; θ ) = 1 2 π σ e − ( θ T x 1 − y 1 ) 2 2 σ 2 。
对于有n个训练样本的数据集 (x1,y1),…,(xn,yn) ( x 1 , y 1 ) , … , ( x n , y n ) ,由高中概率学可知
P(y|x;θ)=∏ni=112π√σe−(θTxi−yi)22σ2 P ( y | x ; θ ) = ∏ i = 1 n 1 2 π σ e − ( θ T x i − y i ) 2 2 σ 2 。
极大似然估计的思想就是,找出一个参数 θ θ ,使得训练集样本出现“这种”结果的可能性达到最大。“这种”的含义即训练样本与其对应的观测。也就是说,我们需要极大化 P(y|x;θ) P ( y | x ; θ ) 。因为在训练集中, x x 和都是给定的, P(y|x;θ) P ( y | x ; θ ) 可以被看成是关于 θ θ 的函数 L(θ) L ( θ ) 。
我们把 L(θ) L ( θ ) 称为 P(y|x;θ) P ( y | x ; θ ) 的似然函数。极大化似然函数的过程就是极大似然估计(Maximum Likelihood Estimation)。相应的最优解 θ θ 即是最优参数,因此
θ∗=argmaxθL(θ)=P(y|x;θ) θ ∗ = a r g m a x θ L ( θ ) = P ( y | x ; θ ) 。
极大化上述问题等价于极大化对数似然:
θ∗=argmaxθlog L(θ)=argmaxθ∑ni=1(−log(2π‾‾‾√σ)−(θTxi−yi)22σ2)=argminθ12∑ni=1(θTxi−yi)2 θ ∗ = a r g m a x θ l o g L ( θ ) = a r g m a x θ ∑ i = 1 n ( − l o g ( 2 π σ ) − ( θ T x i − y i ) 2 2 σ 2 ) = a r g m i n θ 1 2 ∑ i = 1 n ( θ T x i − y i ) 2 。
这也就得到了OLS的形式。
求解OLS的方法有多种:
1. 直接给出解析解:令
J(θ)=12∑ni=1(θTxi−yi)2
J
(
θ
)
=
1
2
∑
i
=
1
n
(
θ
T
x
i
−
y
i
)
2
,令
∂∂θJ(θ)=0
∂
∂
θ
J
(
θ
)
=
0
可得
θ∗=(XTX)−1XTy
θ
∗
=
(
X
T
X
)
−
1
X
T
y
,然而现实情况下
(XTX)−1
(
X
T
X
)
−
1
往往不满秩,所以
θ∗
θ
∗
有多组解。这时往往有学习器的归纳偏好决定最优
θ
θ
。
2. 梯度下降法:
θ(j+1)=θ(j)−α∇θJ(θ(j))
θ
(
j
+
1
)
=
θ
(
j
)
−
α
∇
θ
J
(
θ
(
j
)
)
3. 随机梯度下降:一次选取一个样本进行梯度下降,需要比梯度下降更多的迭代次数。