文章目录 Gradient DescentLearning RateStochastic Gradient DescentFeature ScalingGradient Descent Theory Gradient Descent Learning Rate 我们可以在实际过程,画出右边的图,就是每当参数进行了更新后,loss的变化情况,然后来选择合适的learning rate。 Stochastic Gradient Descent Feature Scaling Gradient Descent Theory 泰勒展开这里可以复习5328 就像帝国时代的游戏,我们只能找到局部最小值。永远无法知道全局最小。除非是凸函数,局部最小是全局最小。