交叉熵损失分析

最新推荐文章于 2024-08-18 10:21:33 发布

置顶

南有乔木NTU

最新推荐文章于 2024-08-18 10:21:33 发布

阅读量1.7k

点赞数 2

分类专栏：深度学习文章标签：深度学习损失函数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zijin0802034/article/details/85036968

版权

本文分析了在分类任务中为何使用交叉熵损失函数，对比了平方损失和Softmax损失函数的优缺点。交叉熵损失能有效解决概率分布问题，并在数值稳定性上优于平方损失，是深度学习分类任务的首选。

摘要由CSDN通过智能技术生成

交叉熵损失分析

分类任务是训练神经网络最常用的任务之一。对于分类任务来说，它的损失函数一般采用交叉熵损失函数。至于为什么这样做，本博客在此进行简单的分析。

平方损失函数

在分类任务上，类别往往属于离散的整形数据(integer)。最直观的想法就是直接使用平方损失函数： $L=\frac{1}{2}\sum_{i=1}^N(y_i-t_i)^2$ 。这里假设 $y_i$ 为第i个样本网络的输出结果， $t_i$ 为该样本对应的标签。
使用平方损失虽然简单，但是缺点也很明显：

例如：在二分类任务中，如果使用最后一层sigmoid激活以后的结果作为类别（ $L=\frac{1}{2}(y-t)^2$ )，如果网络输出了0.000001，那么在softmax这块( $\frac{dL}{dz} = (y-t)*y*(1-y)$ )，导数基本很小，导致无法反向更新。对于logistic function都会存在这些问题。
一般分类任务中，类别之间是互斥的。那么所有类别对应的概率之和应该等于1。平方损失无法体现出该点。

Softmax损失函数

Softmax函数解决了互斥类别中各个类的概率之和等于1的问题。该函数定义如下：
$p_i = \frac{e^{a_i}}{\sum_{k=1}^N e^{a_k}}$
在numpy中，softmax函数可以通过如下实现：

def softmax(X):
    exps = np.exp(X)
    return exps / np.sum(exps)

但是这里有坑需要注意， $e^x$ 很容易出现数值溢出，返回nan的错误。
所以需要对softmax实现进行以下优化：
$p_i = \frac{e^{a_i}}{\sum_{k=1}^N e^{a_k}} = \frac{Ce^{a_i}}{C\sum_{k=1}^N e^{a_k}}=\frac{e^{a_i + log(C)}}{\sum_{k=1}^N e^{a_k+log(C)}}$

最低0.47元/天解锁文章

南有乔木NTU

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

南有乔木NTU CSDN认证博客专家 CSDN认证企业博客

码龄12年

50: 原创

17万+: 周排名

132万+: 总排名

47万+: 访问

: 等级

3817: 积分

549: 粉丝

907: 获赞

204: 评论

2135: 收藏

私信

关注

热门文章

分类专栏

OpenMPI 1篇
opencv 1篇
C++ 5篇
视频处理 3篇
linux 13篇
论文总结 20篇
torch 2篇
GAN 2篇
目标检测 10篇
deep hash 5篇
深度学习 3篇

最新评论

边框回归(Bounding Box Regression)详解
happy14563: https://rockyding.blog.csdn.net/article/details/107631116?spm=1001.2101.3001.6650.8&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-8-107631116-blog-132180840.235%5Ev43%5Epc_blog_bottom_relevance_base1&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-8-107631116-blog-132180840.235%5Ev43%5Epc_blog_bottom_relevance_base1&utm_relevant_index=15
边框回归(Bounding Box Regression)详解
happy14563: 这里有免费的文章哈：https://rockyding.blog.csdn.net/article/details/107631116?spm=1001.2101.3001.6650.8&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-8-107631116-blog-132180840.235%5Ev43%5Epc_blog_bottom_relevance_base1&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-8-107631116-blog-132180840.235%5Ev43%5Epc_blog_bottom_relevance_base1&utm_relevant_index=15
Feature Learning Based Deep Supervised Hashing with Pairwise Labels
阿白: 请问这篇论文有对应的Matlab代码吗？
Deep Learning of Binary Hash Codes for Fast Image Retrieval
在校大学生_程序员: 请问一下这篇论文有代码吗
边框回归(Bounding Box Regression)详解
哈哈葱: 谢谢博主，我悟了

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。