1.代价函数(1)
将下方内容简化讨论:
假设函数:
模型参数:
代价函数:
目标:
将上面简化成为:
假设函数:
模型参数:
代价函数:
目标:
由此讨论:
假设有一个训练集【(1,1),(2,2),(3,3)】
分别取的值进行运算,将其带入代价函数来运算,例:分别取1,0.5,0,得出的值为0,0.58,2.3。将的函数图像画出来,得出=0,=1。
2.代价函数(2)
由一个模型参数引申到两个模型参数的讨论:
其图像为:
三维碗状图【曲面高度=的值】—>(转化)—>等高线图
我们想要的是一个高效的算法,一个软件高效组成部分,来自动寻找代价函数J最小值(以及对应的)。我们需要利用软件找到使函数最小的。
3.梯度下降法(也可应用在更一般的函数上)
等高线图所反映的“山坡”上有相关的取值点(由取值点向下梯度下降)。
不同山坡上的点经过梯度下降,可能会得到完全不同的局部最优解。
给出梯度下降的公式:
【为学习效率,即每次梯度下降幅度(对应等高线图上下山扩布大小)】
要求同步更新【更自然】:
4.梯度下降法的更新规则(现在只针对而讨论【】):
,
式子中的导数值可以是正数(正向更新):
,
式子中的导数值可以是负数(负向更新):
继续利用来讨论(学习率):
(1)当很小,则梯度下降缓慢;
(2)当很大,则梯度下降可能超过最小取值,其最终可能会收敛也可能会发散。
(3)即使在学习率不变的情况下,梯度下降也可以收敛到一个固定的最小值。
当接近局部最小值时,导数值会自动变得越来越小,所以梯度下降将自动采取较小的幅度,这就是梯度下降的运行方式。
5.梯度下降的线性回归
【将梯度下降算法和线性回归模型相结合,得出梯度下降的线性回归算法】
解得:
【同步更新】
6.其他内容
(1)凹函数(形状向下拱):没有局部最优解,它总会收敛到全局最优。
(2)梯度下降也叫做“Batch”梯度下降【Batch(批处理)意为:每一步梯度下降,都遍历了整个训练集样本】