交叉熵（Cross entropy）和InfoNCE

最新推荐文章于 2024-05-31 13:51:06 发布

Calx-C

最新推荐文章于 2024-05-31 13:51:06 发布

阅读量836

点赞数 21

文章标签：机器学习深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45842152/article/details/136707811

版权

多分类问题，一个样本的交叉熵损失函数为：

$L_{CE}=-\sum^M_{c=1} y_{o,c} log(p_{o,c})$

其中：

M：类别数
$y_{o,c}：y_o是one-hot编码的向量，代表这个样本的真实标签。c为某位置上分量$
$p_{o,c}:模型预测样本 o 属于类别 c 的概率。$
$p_{o,c}:通常是softmax计算。再torch中的CE方法自动对输入的logits先算softmax再算CE$

举例计算

假设的真实标签和模型预测：

样本1的真实标签是类别3（one-hot编码向量为[0, 0, 1, 0, 0]）。
样本2的真实标签是类别1（one-hot编码向量为[1, 0, 0, 0, 0]）。
样本3的真实标签是类别5（one-hot编码向量为[0, 0, 0, 0, 1]）。
模型预测的概率分布为：
- 样本1的预测概率：[0.1, 0.2, 0.5, 0.1, 0.1]。
- 样本2的预测概率：[0.3, 0.3, 0.1, 0.2, 0.1]。
- 样本3的预测概率：[0.2, 0.1, 0.1, 0.1, 0.5]。

计算交叉熵损失的步骤：

计算每个样本的损失：
在这里插入图片描述

计算对数概率：

在这里插入图片描述

计算最终损失：

在这里插入图片描述

求和取平均

在这里插入图片描述

所以一个batch内的多分类问题中的CE损失公式可以表示为：
在这里插入图片描述

再来看看单个样本的InfoNCE：
在这里插入图片描述

在这里插入图片描述

出自MoCo：
可以理解为，对一个q，计算它和batch（K+1个）中每个k的相似度 $q*k_{i}$ 得到一个相似度向量。我们最大化q和自己正样本k+的相似度。相当于把向量 $q*k_{i}$ 看作CE的输入，one-hot向量为：正样本上为1，其他位置为0的。也就是对相似度做K+1的CE。使得和正样本的相似度最高。

batch大小为N的InfoNCE：
在这里插入图片描述

关注

21
点赞
踩
21

收藏

觉得还不错? 一键收藏
1
评论
交叉熵（Cross entropy）和InfoNCE

LCE−∑c1Myoclogpocyocyo是one−hot编码的向量，代表这个样本的真实标签。c为某位置上分量poc模型预测样本o属于类别c的概率。poc通常是softmax计算。再torch中的CE方法自动对输入的logits先算softmax再算CE。
复制链接

扫一扫

Calx-C CSDN认证博客专家 CSDN认证企业博客

码龄5年

10: 原创

122万+: 周排名

10万+: 总排名

5330: 访问

: 等级

205: 积分

64: 粉丝

88: 获赞

1: 评论

92: 收藏

私信

关注

热门文章

分类专栏

论文阅读 3篇

最新评论

交叉熵（Cross entropy）和InfoNCE
红鲤鱼有绿驴叫驴屡屡: 问一下博主啊，这里为什么要计算对数概率，最终损失不是各个样本交叉熵损失以后求和求平均吗，为啥对对数概率求和求平均，而且（-log（0.1））怎么来的？
[论文阅读-2018CVPR]：Learning to Compare: Relation Network for Few-Shot Learning
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
[论文阅读-2017NeurIPS]：Prototypical Networks for Few-shot Learning
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
[论文阅读-2023WACV]：Similarity Contrastive Estimation for Self-Supervised Soft Contrastive Learning
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
CUDA编程：关于二重指针（void**）
CSDN-Ada助手: 算法技能树或许可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。