17-2 随机梯度下降
1.随机梯度下降的步骤
随机梯度下降和普通的梯度下降的不同点在于前者的每次迭代都只需要拟合一个训练数据就可以了,后者则需要在每次迭代的时候都要考虑所有样本。
2.随机梯度下降的思想就是每次迭代后都会用这次迭代得到的参数去拟合下一个样本点
3.另外,外层循环的次数通常在1~10之间
17-3 mini-batch梯度下降
1.在每一次迭代中使用b个样本,b通常取2~100
2.过程如下:
17-4 随机梯度下降收敛
1.有两个问题需要注意:怎么知道我们的算法是否收敛到了最小值,以及如何调整学习率α
2.检查我们的优化算法:
3.通过观察图像来判断是否需要调整我们的学习率α
17-5 在线学习
1.CTR:click through rate,点击率
2.实例:
用户键入关键词搜索手机,然后我们返回10部用户可能点击的手机链接,通过用户的点击行为获得10个数据,每个数据记为(x,y),x是手机的特征向量,比如有多少个用户的检索关键字和手机名匹配等等;y是用户的点击行为,1表示点击,0表示不点击。
2.在线学习的一个优点是如果用户的品味在缓慢地变化,那我们可以通过缓慢变化的用户数据来更新和训练我们的算法
17-6 减少映射和数据并行
1.主要就是如果优化算法的偏导项可以表示成多个部分的和,那就可以把大数据集均分成多个小数据集,然后把它们发送给多台电脑或者多台处理器,最后把结果汇总起来就可以了,这样可以大大提高数据处理的速度。