监督学习分为两大类:分类问题和回归问题。简单来说,分类问题目标输出的是离散值,回归问题目标输出的是连续值。但是无论是哪种问题,神经网络模型的效果及优化的目标都是通过损失函数来定义的。
对于回归问题常用的损失函数有:均方误差(MSE),平均绝对值误差(也称L1损失)等。
对于分类问题,常用的损失函数则为交叉熵(Cross Entropy Loss)。
我们知道,在神经网络中,softmax()会将神经网络的原始输出值(就是input经过一系列复杂的加权和非线性处理后的值)转化为一个概率值。而交叉熵本质上描述的是两个概率分布的距离,即实际概率与期望概率之间的距离。这就不难理解:交叉熵的值越小,两个概率分布就越接近,也就是预测值越接近期望值。机器学习正是通过这种训练使得每一个样本的交叉熵值越小越好,达到更好的预测效果的。