吴恩达机器学习第二章学习笔记

单变量线性回归(linear regression with one variable)

x ( i ) x^{(i)} x(i):输入变量
y ( i ) y^{(i)} y(i):输出变量
( x ( i ) , y ( i ) ) (x^{(i)},y^{(i)}) (x(i),y(i)):训练范例
m m m:训练样本的数量
h h h(hypothesis):假设函数 h θ ( x ) = θ 0 + θ 1 x h_\theta^{(x)}=\theta_0+\theta_1x hθ(x)=θ0+θ1x(未知量为x)

代价函数(cost function)

J ( θ 0 , θ 1 ) = 1 2 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^{m}(h_\theta^{(x^{(i)})}-y^{(i)})^2 J(θ0,θ1)=2m1i=1m(hθ(x(i))y(i))2
代价函数可以衡量假设函数的精度。
J ( θ 0 , θ 1 ) J(\theta_0,\theta_1) J(θ0,θ1)取值最小,假设函数精度最高。(未知量为 θ 0 , θ 1 \theta_0,\theta_1 θ0,θ1)这个过程可以称之为最小化(minimize)
在学习的时候你可能也会疑惑为什么分母不是m而是2m?这是因为无论是m还是2m,最终 θ \theta θ的最优值是相同的,这里取2m,仅仅是为了下面梯度求导时能消去分母的2,让计算更方便。

梯度下降算法(gradient descent)

α \alpha α:学习速率(恒定的正数,不能过大也不能过小)
θ j : = θ j − α ∂ J ( θ 0 , θ 1 ) ∂ θ j \theta_j:=\theta_j-\alpha\frac{\partial{J(\theta_0,\theta_1)}}{\partial\theta_j} θj:=θjαθjJ(θ0,θ1)(算法主要公式)
: = := :=赋值语句(将右边的值赋给左边)
1: t e m p 0 : = θ 0 − α ∂ J ( θ 0 , θ 1 ) ∂ θ 0 temp0:=\theta_0-\alpha\frac{\partial{J(\theta_0,\theta_1)}}{\partial\theta_0} temp0:=θ0αθ0J(θ0,θ1)
2: t e m p 1 : = θ 1 − α ∂ J ( θ 0 , θ 1 ) ∂ θ 1 temp1:=\theta_1-\alpha\frac{\partial{J(\theta_0,\theta_1)}}{\partial\theta_1} temp1:=θ1αθ1J(θ0,θ1)
3: θ 0 : = θ 0 − α ∂ J ( θ 0 , θ 1 ) ∂ θ 0 \theta_0:=\theta_0-\alpha\frac{\partial{J(\theta_0,\theta_1)}}{\partial\theta_0} θ0:=θ0αθ0J(θ0,θ1)
4: θ 1 : = θ 1 − α ∂ J ( θ 0 , θ 1 ) ∂ θ 1 \theta_1:=\theta_1-\alpha\frac{\partial{J(\theta_0,\theta_1)}}{\partial\theta_1} θ1:=θ1αθ1J(θ0,θ1)
在使用该算法时, θ 0 , θ 1 \theta_0,\theta_1 θ0,θ1要同时更新(即严格遵守以上四步顺序)重复直至收敛

为什么梯度下降算法能找到局部最优点( θ 0 , θ 1 \theta_0,\theta_1 θ0,θ1)?

θ 0 = 0 \theta_0=0 θ0=0时,算法公式为: θ 1 : = θ 1 − α d J d θ \theta_1:=\theta_1-\alpha\frac{\mathrm{d}{J}}{\mathrm{d}\theta} θ1:=θ1αdθdJ
θ 1 \theta_1 θ1选在最优点右侧时,图像如下所示:
在这里插入图片描述
(ps: ∂ J ∂ θ \frac{\partial{J}}{\partial\theta} θJ d J d θ \frac{\mathrm{d}{J}}{\mathrm{d}\theta} dθdJ并没有本质不同,只是参数数量不同时选用不同的符号而已)
θ 1 \theta_1 θ1处的斜率是正数, α \alpha α同样是正数, θ 1 − d J d θ \theta_1-\frac{\mathrm{d}{J}}{\mathrm{d}\theta} θ1dθdJ数值会越来越小,所以会越来越接近最优点。
θ 1 \theta_1 θ1选在最优点左侧时,图像如下所示:
在这里插入图片描述
θ 1 \theta_1 θ1的斜率是负数, α \alpha α是正数, θ 1 − d J d θ \theta_1-\frac{\mathrm{d}{J}}{\mathrm{d}\theta} θ1dθdJ数值会越来越大,所以会越来越接近最优点。
同理, θ 0 \theta_0 θ0不等于0时,该算法同样能一步步到达局部最优点。

为什么 α \alpha α的是定值?

因为 d J d θ \frac{\mathrm{d}{J}}{\mathrm{d}\theta} dθdJ的值会改变, d J d θ \frac{\mathrm{d}{J}}{\mathrm{d}\theta} dθdJ的绝对值会越来越小,直至 d J d θ = 0 \frac{\mathrm{d}{J}}{\mathrm{d}\theta}=0 dθdJ=0 θ 1 \theta_1 θ1到达最优点。

线性回归的梯度下降算法

由假设函数,代价函数,梯度求导算法联立,可得线性回归的梯度求导算法的总公式:
t e m p 0 : = θ 0 − α m ∑ i = 1 m ( θ 0 + θ 1 x ( i ) − y ( i ) ) temp0:=\theta_0-\frac{\alpha}{m}\sum_{i=1}^{m}(\theta_0+\theta_1x^{(i)}-y^{(i)}) temp0:=θ0mαi=1m(θ0+θ1x(i)y(i))
t e m p 1 : = θ 1 − α m ∑ i = 1 m ( θ 0 + θ 1 x ( i ) − y ( i ) ) x ( i ) temp1:=\theta_1-\frac{\alpha}{m}\sum_{i=1}^{m}(\theta_0+\theta_1x^{(i)}-y^{(i)})x^{(i)} temp1:=θ1mαi=1m(θ0+θ1x(i)y(i))x(i)
θ 0 : = t e m p 0 \theta_0:=temp0 θ0:=temp0
θ 1 : = t e m p 1 \theta_1:=temp1 θ1:=temp1

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值