回归算法的应用
1.梯度下降(Gradient Descent)
1.1什么是梯度下降
梯度下降算法(随机梯度下降算法(SGD)、小批量梯度下降算法(mini-batch SGD))都需要对于每一个参数都用相同的学习率进行更新。
但是在实际应用中,各个参数的重要性肯定是不一样的,所以我们对于不同的参数要动态的采取不同的学习率,让目标函数更快的收敛。
1.1.1自适应学习率(Adaptive Learning Rates)
1.1.2 Adagrad算法
AdaGrad算法就是将每一个参数的每一次迭代的梯度取平方累加后在开方,用全局学习率除以这个数,作为学习率的动态更新。
进行不同参数的比较,取二阶导数。
1.2 随机梯度下降(SGD)
随机梯度下降,Stochastic Gradient Descent,可以加快训练速度。
其原理为:
算法比较:
1.3 特征缩放(feature scaling)
特征缩放作为特征工程中的一部分,其意义为: