1. 梯度下降
梯度下降几乎可以用于优化所有的深度学习模型,最简单的理解是计算损失函数关于模型参数的导数(梯度),然后通过不断地在损失函数递减的方向更新参数,即将梯度乘以一个预先确定的正数𝜂,并从当前参数的值中减掉,降低损失。
2. 小批量B
在每次迭代中,一般会随机抽样一个小批量B, 它是由固定数量的训练样本组成的。 然后,计算小批量的平均损失关于模型参数的导数。 |B|表示每个小批量中的样本数,这也称为批量大小(batch size)
3. 小批量随机梯度下降
通常会在每次需要计算更新的时候随机抽取一小批样本,并根据梯度下降方法,更新参数, 这叫做小批量随机梯度下降(minibatch stochastic gradient descent)。
4. 学习率
𝜂一般表示学习率(learning rate)。用于更新学习参数。
5. 超参数
批量大小和学习率的值通常是手动预先指定,而不是通过模型训练得到的。 这些可以调整但不在训练过程中更新的参数称为超参数(hyperparameter)。设置超参数很棘手,需要通过反复试验进行调整。
调参(hyperparameter tuning)是选择超参数的过程。 超参数通常是根据训练迭代结果来调整的, 而训练迭代结果是在独立的验证数据集(validation dataset)上评估得到的。
6. 泛化
在从未见过的数据上实现较低的损失, 这一过程被称为泛化(generalization)。可以体现模型的适用性。
7. 预测(prediction)或推断(inference)
给定特征估计目标的过程通常称为预测(prediction)或推断(inference)。