单变量线性回归(linear regression with one variable)
x
(
i
)
x^{(i)}
x(i):输入变量
y
(
i
)
y^{(i)}
y(i):输出变量
(
x
(
i
)
,
y
(
i
)
)
(x^{(i)},y^{(i)})
(x(i),y(i)):训练范例
m
m
m:训练样本的数量
h
h
h(hypothesis):假设函数
h
θ
(
x
)
=
θ
0
+
θ
1
x
h_\theta^{(x)}=\theta_0+\theta_1x
hθ(x)=θ0+θ1x(未知量为x)
代价函数(cost function)
J
(
θ
0
,
θ
1
)
=
1
2
m
∑
i
=
1
m
(
h
θ
(
x
(
i
)
)
−
y
(
i
)
)
2
J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^{m}(h_\theta^{(x^{(i)})}-y^{(i)})^2
J(θ0,θ1)=2m1∑i=1m(hθ(x(i))−y(i))2
代价函数可以衡量假设函数的精度。
J
(
θ
0
,
θ
1
)
J(\theta_0,\theta_1)
J(θ0,θ1)取值最小,假设函数精度最高。(未知量为
θ
0
,
θ
1
\theta_0,\theta_1
θ0,θ1)这个过程可以称之为最小化(minimize)
在学习的时候你可能也会疑惑为什么分母不是m而是2m?这是因为无论是m还是2m,最终
θ
\theta
θ的最优值是相同的,这里取2m,仅仅是为了下面梯度求导时能消去分母的2,让计算更方便。
梯度下降算法(gradient descent)
α
\alpha
α:学习速率(恒定的正数,不能过大也不能过小)
θ
j
:
=
θ
j
−
α
∂
J
(
θ
0
,
θ
1
)
∂
θ
j
\theta_j:=\theta_j-\alpha\frac{\partial{J(\theta_0,\theta_1)}}{\partial\theta_j}
θj:=θj−α∂θj∂J(θ0,θ1)(算法主要公式)
:
=
:=
:=赋值语句(将右边的值赋给左边)
1:
t
e
m
p
0
:
=
θ
0
−
α
∂
J
(
θ
0
,
θ
1
)
∂
θ
0
temp0:=\theta_0-\alpha\frac{\partial{J(\theta_0,\theta_1)}}{\partial\theta_0}
temp0:=θ0−α∂θ0∂J(θ0,θ1)
2:
t
e
m
p
1
:
=
θ
1
−
α
∂
J
(
θ
0
,
θ
1
)
∂
θ
1
temp1:=\theta_1-\alpha\frac{\partial{J(\theta_0,\theta_1)}}{\partial\theta_1}
temp1:=θ1−α∂θ1∂J(θ0,θ1)
3:
θ
0
:
=
θ
0
−
α
∂
J
(
θ
0
,
θ
1
)
∂
θ
0
\theta_0:=\theta_0-\alpha\frac{\partial{J(\theta_0,\theta_1)}}{\partial\theta_0}
θ0:=θ0−α∂θ0∂J(θ0,θ1)
4:
θ
1
:
=
θ
1
−
α
∂
J
(
θ
0
,
θ
1
)
∂
θ
1
\theta_1:=\theta_1-\alpha\frac{\partial{J(\theta_0,\theta_1)}}{\partial\theta_1}
θ1:=θ1−α∂θ1∂J(θ0,θ1)
在使用该算法时,
θ
0
,
θ
1
\theta_0,\theta_1
θ0,θ1要同时更新(即严格遵守以上四步顺序)重复直至收敛
为什么梯度下降算法能找到局部最优点( θ 0 , θ 1 \theta_0,\theta_1 θ0,θ1)?
当
θ
0
=
0
\theta_0=0
θ0=0时,算法公式为:
θ
1
:
=
θ
1
−
α
d
J
d
θ
\theta_1:=\theta_1-\alpha\frac{\mathrm{d}{J}}{\mathrm{d}\theta}
θ1:=θ1−αdθdJ
当
θ
1
\theta_1
θ1选在最优点右侧时,图像如下所示:
(ps:
∂
J
∂
θ
\frac{\partial{J}}{\partial\theta}
∂θ∂J与
d
J
d
θ
\frac{\mathrm{d}{J}}{\mathrm{d}\theta}
dθdJ并没有本质不同,只是参数数量不同时选用不同的符号而已)
θ
1
\theta_1
θ1处的斜率是正数,
α
\alpha
α同样是正数,
θ
1
−
d
J
d
θ
\theta_1-\frac{\mathrm{d}{J}}{\mathrm{d}\theta}
θ1−dθdJ数值会越来越小,所以会越来越接近最优点。
当
θ
1
\theta_1
θ1选在最优点左侧时,图像如下所示:
θ
1
\theta_1
θ1的斜率是负数,
α
\alpha
α是正数,
θ
1
−
d
J
d
θ
\theta_1-\frac{\mathrm{d}{J}}{\mathrm{d}\theta}
θ1−dθdJ数值会越来越大,所以会越来越接近最优点。
同理,
θ
0
\theta_0
θ0不等于0时,该算法同样能一步步到达局部最优点。
为什么 α \alpha α的是定值?
因为 d J d θ \frac{\mathrm{d}{J}}{\mathrm{d}\theta} dθdJ的值会改变, d J d θ \frac{\mathrm{d}{J}}{\mathrm{d}\theta} dθdJ的绝对值会越来越小,直至 d J d θ = 0 \frac{\mathrm{d}{J}}{\mathrm{d}\theta}=0 dθdJ=0, θ 1 \theta_1 θ1到达最优点。
线性回归的梯度下降算法
由假设函数,代价函数,梯度求导算法联立,可得线性回归的梯度求导算法的总公式:
t
e
m
p
0
:
=
θ
0
−
α
m
∑
i
=
1
m
(
θ
0
+
θ
1
x
(
i
)
−
y
(
i
)
)
temp0:=\theta_0-\frac{\alpha}{m}\sum_{i=1}^{m}(\theta_0+\theta_1x^{(i)}-y^{(i)})
temp0:=θ0−mα∑i=1m(θ0+θ1x(i)−y(i))
t
e
m
p
1
:
=
θ
1
−
α
m
∑
i
=
1
m
(
θ
0
+
θ
1
x
(
i
)
−
y
(
i
)
)
x
(
i
)
temp1:=\theta_1-\frac{\alpha}{m}\sum_{i=1}^{m}(\theta_0+\theta_1x^{(i)}-y^{(i)})x^{(i)}
temp1:=θ1−mα∑i=1m(θ0+θ1x(i)−y(i))x(i)
θ
0
:
=
t
e
m
p
0
\theta_0:=temp0
θ0:=temp0
θ
1
:
=
t
e
m
p
1
\theta_1:=temp1
θ1:=temp1