# softmax回归
y = [y1, ... , yn], 其中只有一个值为1,其他的全为0,比如说mnist数据集中,数字的值只能是0-9其中一个,现在我们假如他是1,那个y_truth=[0, 1, 0, 0, 0 ,0, 0, 0, 0, 0, 0]
y_hat(也就是上图中的y尖)是我们的预测值,y_hat = [0.1, 0.6, 0.1, 0.1...],其中最大的是0.6,那么我们就说最有可能的就是数字1。
我们使用sotfmax的目的是使整个预测的y_hat的综合加起来为1,且全为正数。
与线性回归模型不同的是。在线性模型中我们使用MSE(均方误差)作为损失值,在这里我们使用交叉熵来作为损失值。
接下来介绍三种损失函数
蓝色的线表示当y=0时,变换y'时的函数
绿色为似然函数的图像
橙色为损失函数的梯度
1.MSELoss(L2Loss),缺点是当离最优点太远时,梯度太大,我们不希望这样,所有有下面的损失函数
2. L1Loss 除了在0点处外,梯度一致
3. 结合上面两种的优点