《Understanding Hard Negatives in Noise Contrastive Estimation》阅读笔记

最新推荐文章于 2024-04-01 11:34:23 发布

巍巍微澜

最新推荐文章于 2024-04-01 11:34:23 发布

阅读量214

点赞数 1

分类专栏： Cantrastive Learning 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44846680/article/details/116010943

版权

本文深入探讨了噪声对比估计（NCE）损失中使用难负样本的原因，分析了NCE损失与交叉熵损失的关系，并通过实验展示了在NLP任务中采用难负样本能有效提升模型性能。

摘要由CSDN通过智能技术生成

1 思想

本文通过理论与实验分析，说明NCE loss中使用难负样本是对真实CE loss的有偏估计，而选择难负样本有助于减少理想模型与经验估计模型梯度之间的偏差。

2 理论分析

2.1 NCE loss简介

给定一组数据样本 $y）\in \mathcal{X} × \mathcal{Y}$ ，其中 $x$ 为样本， $y$ 为标签（也可以为其他数据类型），则条件概率密度 $p_{\theta}(y|x)$ 为：

上式中的 $s_{\theta}(x, y)$ 表示一个分类器，上式表示了 $x$ 标签为 $y$ 的条件概率密度，这里可以把 $(x, y)$ 视为一个正对，而 $\mathcal{Y}$ 中其他样本与 $x$ 的集合就视为负对，由此我们可以得到CE loss为：

上面的理想条件概率密度

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。