吴恩达视频笔记 梯度下降特征缩放学习率 梯度下降 特征缩放 应该是代码中的归一化吧,使特征的值都处于相近的范围内可加快梯度下降的速度。 学习率 若学习率过大,则可能导致损失函数不收敛,值变大,误差更大,此时需要减小学习率。 若学习率足够小,则每次迭代后损失函数(代价函数)都会下降。 但是若学习率过小,则会导致收敛速度慢的问题。 所以可以绘制损失函数随迭代步数变化的曲线弄清到底发生了什么。 因此,可以尝试一些学习率,然后进行图像的绘制,对此进行调整,得到一个较好的学习率