softmax_loss的真正名字应该是softmax cross entropy loss。因为softmax的定义是
f ( z i ) = s o f t m a x ( z i ) = e z i ∑ j e z j f(z_i)=softmax(z_i)=\frac{e^{z_i}}{\sum_je^{z_j}} f(zi)=softmax(zi)=∑jezjezi, softmax loss的定义是
L = − 1 N ∑ i = 0 N L i = − 1 N ∑ i = 0 N l o g f ( z i ) L=-\frac{1}{N}\sum_{i=0}^NL_i=-\frac{1}{N}\sum_{i=0}^{N}logf(z_i) L=−N1∑i=0NLi=−N1∑i=0N
softmax_loss梯度推导
最新推荐文章于 2024-08-31 11:40:26 发布
本文详细介绍了softmax cross entropy loss,也就是softmax_loss的数学定义,并且探讨了其梯度计算过程。针对单个样本的loss,导数分为对应目标类别的负一倍和其他类别的softmax值。在实际应用中,例如线性分类器,通过链式法则可以计算loss对权重矩阵W的导数。对于批量样本,只需对每个样本的贡献取平均即可得到整个batch的梯度。
摘要由CSDN通过智能技术生成