吴恩达机器学习2-单变量线性回归
这节课重点是理解好代价函数和梯度下降法。其中梯度下降法后续应用很广泛。
- 模型描述:
数据集:俄勒冈州波特兰市的住房价格。
要求:根据不同房屋尺寸所售出的价格,画出数据集,构建一个模型,预测房子尺寸和价格之间的关系
举例:如果你朋友的房子是 1250 平方尺大小,你要告诉他们这房子能卖多少钱。
分析:它被称作监督学习是因为对于每个数据来说,我们给出了“正确的答案”,即告诉我们:根据我们的数据来说,房子实际的价格是多少,而且,更具体来说,这是一个回归问题。回归一词指的是,我们根据之前的数据预测出一个准确的输出值,对于这个例子就是价格。
-
符号表述
𝑚 代表训练集中实例的数量
𝑥 代表特征/输入变量
𝑦 代表目标变量/输出变量
(𝑥, 𝑦) 代表训练集中的实例
(𝑥(𝑖), 𝑦(𝑖)) 代表第𝑖 个观察实例
ℎ 代表学习算法的解决方案或假设函数(hypothesis)
表达方式:ℎ𝜃(𝑥) = 𝜃0+ 𝜃1𝑥,因为只含有一个特征/输入变量,因此这样的问题叫作单变量线性回归问题
3.代价函数
假设函数:ℎ𝜃(𝑥) = 𝜃0+ 𝜃1𝑥
代价函数: J ( θ 0 , θ 1 ) = 1 2 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 J\left(\theta_{0}, \theta_{1}\right)=\frac{1}{2 m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2} J(θ0,θ1)=2m1∑i=1m(hθ(x(i))−y(i))2
代价函数表示的是模型所预测的值与训练集中实际值之间的差距就是建模误差
图中最低点就是最佳模型对应的𝜃0和 𝜃1
图中最小值就是最佳模型对应的𝜃0和 𝜃1
图中高线图最中间就是最佳模型对应的𝜃0和 𝜃1
- 梯度下降法**(重点)**
梯度下降背后的思想是:开始时我们随机选择一个参数的组合(𝜃0, 𝜃1, . . . . . . , 𝜃𝑛),计算代价函数,然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到到到一个局部最小值(local minimum),因为我们并没有尝试完所有的参数组合,所以不能确定我们得到的局部最小值是否便是全局最小值(global minimum),选择不同的初始参数组合,可能会找到不同的局部最小值。
理解:
想象一下你正站立在山的这一点上,站立在你想象的公园这座红色山上,在梯度下降算法中,我们要做的就是旋转 360 度,看看我们的周围,并问自己要在某个方向上,用小碎步尽快下山。这些小碎步需要朝什么方向?如果我们站在山坡上的这一点,你看一下周围,你会发现最佳的下山方向,你再看看周围,然后再一次想想,我应该从什么方向迈着小碎步下山?然后你按照自己的判断又迈出一步,重复上面的步骤,从这个新的点,你环顾四周,并决定从什么方向将会最快下山,然后又迈进了一小步,并依此类推,直到你接近局部最低点的位置。
公式:
θ j : = θ j − α ∂ ∂ θ j J ( θ 0 , θ 1 ) ( for j = 0 and j = 1 ) \theta_{j}:=\theta_{j}-\alpha \frac{\partial}{\partial \theta_{j}} J\left(\theta_{0}, \theta_{1}\right) \quad(\text { for } j=0 \text { and } j=1 \text { ) } θj:=θj−α∂θj∂J(θ0,θ1)( for j=0 and j=1 )
𝑎是学习率(learning rate),它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大,在批量梯度下降中,我们每一次都同时让所有的参数减去学习速率乘以代价函数的导数。
公式理解:
关于导数项
取这个红点的切线,就是这样一条红色的直线,刚好与函数相切于这一点,这条线有一个正斜率,也就是说它有正导数,那么就是减去一个正数项,他就会向左朝着目标逼近;同理,如果红点在目标左边,那么它的导数项就会是一个负数,他就会向右朝着目标接近。
关于学习率:
1.学习率过大:如果𝑎太大,那么梯度下降法可能会越过最低点,甚至可能无法收敛
2.学习率过小:如果𝑎太小的话,可能会很慢,因为它会一点点挪动,它会需要很多步才能到达全局最低点
3.不需要频繁调整学习率:因为当我们接近局部最低点时,很显然在局部最低时导数等于零,所以当我们接近局部最低时,导数值会自动变得越来越小,所以梯度下降将自动采取较小的幅度,这就是梯度下降的做法。所以实际上没有必要再另外减小𝑎
4.如果我们预先把𝜃1放在一个局部的最低点,你认为下一步梯度下降法会怎样工作?
它已经在一个局部的最优处或局部最低点。所以局部最优点的导数将等于零,因为它是那条切线的斜率。那么梯度下降法更新其实什么都没做,它不会改变参数的值。
更新方式:
temp0 : = θ 0 − α ∂ ∂ θ 0 J ( θ 0 , θ 1 ) temp1 : = θ 1 − α ∂ ∂ θ 1 J ( θ 0 , θ 1 ) θ 0 : = temp0 θ 1 : = templ \begin{aligned} &\text { temp0 }:=\theta_{0}-\alpha \frac{\partial}{\partial \theta_{0}} J\left(\theta_{0}, \theta_{1}\right) \\ &\text { temp1 }:=\theta_{1}-\alpha \frac{\partial}{\partial \theta_{1}} J\left(\theta_{0}, \theta_{1}\right) \\ &\theta_{0}:=\text { temp0 } \\ &\theta_{1}:=\text { templ } \end{aligned} temp0 :=θ0−α∂θ0∂J(θ0,θ1) temp1 :=θ1−α∂θ1∂J(θ0,θ1)θ0:= temp0 θ1:= templ
同时计算完𝜃0和 𝜃1再更新