2022最新版-李宏毅机器学习深度学习课程-P16 Loss可能影响网络训练失败&softmax与sigmoid

QwQllly

已于 2023-10-30 23:04:43 修改

阅读量189

点赞数

分类专栏：李宏毅机器学习深度学习文章标签：机器学习深度学习人工智能

于 2023-10-13 13:35:31 首次发布

本文链接：https://blog.csdn.net/weixin_45626133/article/details/133808552

版权

李宏毅机器学习深度学习专栏收录该内容

25 篇文章 3 订阅

订阅专栏

一、classification 与 regression 的区别

通过以往学习已经知道：

1. 在输出数量方面， R 只输出一个预测 y 值，而C 通过 one-hot vector（独热编码）表示不同的类别（一个向量中只有1 个 1 ，其余都为 0，1 在不同的位置代表不同类别）；

2. 在计算 Loss 时，R 直接拿预测输出数值 y 和真实数值计算接近度，而 C 将多个输出数值组成一个向量，向量经过 softmax（归一化，保证输出 y′ 在 0 与 1 之间，并且总和为1，可以理解为预测输出是 yi 所代表类别的的概率值）后形成新的向量，再拿新的向量去和不同类别计算接近度。

3. 计算loss的方法不同（新学习的）

① 介绍： regression 采用 MSE 和 MAE 的方法计算 loss 函数；而 classification 采用 cross entropy（交叉熵）的方法计算 loss 函数，当 ŷ 跟 y' 一模一样的时候，为最小交叉熵（等价于 maximizing likelihood 最大似然估计）

② 交叉熵适用于 classification 的原因：交叉熵改变了 loss 函数，也就改变了 error surface，使得在大 loss 的地方也会有大的 gradient，而不像 MSE 在大 loss 处的 gradient 很小，不易梯度下降。所以交叉熵计算出来的loss函数更容易做梯度下降，不容易卡在 critical point

P.S. 在 pytorch 中，softmax 是嵌在 cross entropy 里面的，所以用了 cross entropy 就不用加 softmax 了，否则就有两层 softmax