论文阅读_对比学习_SimCSE

最新推荐文章于 2024-01-04 11:25:48 发布

xieyan0811

最新推荐文章于 2024-01-04 11:25:48 发布

阅读量518

点赞数

分类专栏：论文阅读文章标签：论文阅读学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xieyan0811/article/details/126914092

版权

论文阅读专栏收录该内容

90 篇文章 7 订阅

订阅专栏

英文题目：SimCSE: Simple Contrastive Learning of Sentence Embeddings
中文题目：SimSCE：用简单的对比学习提升句嵌入的质量
论文地址：https://export.arxiv.org/pdf/2104.08821.pdf
领域：自然语言处理，对比学习
发表时间：2021.04
作者：Tianyu Gao, 普林斯顿大学，清华大学
出处：EMNLP
被引量：83
代码和数据：https://github.com/princeton-nlp/SimCSE
阅读时间：2022.09.18
(周五同事分享，简单整理笔记)

读后感

主要用于提升句嵌入的质量。方法很简单，利用BERT模型本身的dropout性质，通过同一输入输出不同嵌入作为正例对，然后取同一batch下的反例对训练模型。

介绍

自监督学习主要包含：生成式，对比式，对抗式。其中的对比学习原理是：利用无监督数据，通过巧妙的方法构造正例/反例（一般是一个正例对应多个反例），训练模型，让正例距离足够近，反例距离足够远，以利用无监督数据，进行更好地表示（表征）。
一般设计包含三部分：构造正/负例；优化损失函数；调整模型编码器。

评价对比学习的质量有两个关键指标：alignment和uniformity。其中alignment指的是正例中数据对表示的一致性:

uniformity指的是嵌入空间分布的均匀性：

其中Pdata指空间中所有实例。也就是说正例距离越近越好，而随机采样的数据对的距离应该分布在超球体表面。

方法

无监督数据训练SimCSE

之前生成近似正例的方法有：随机增删，近义词替换，交换词序等。本文利用 BERT 模型本身包含 dropout，这样同一个句子两次送入模型，由于随机dropout，最终的编码也不同。用这种方法作为数据增强，生成对比学习中的正例对，使用同一batch中的其它实例作为反例。损失函数定义如下：

表-1对比了文中方法和其它常用方法（删词，剪切），在同义句子匹配STS-B任务中的效果：

图-2把损失拆分成alignment和uniformity，位置处于左下角时效果最好（两个loss都小）；可以看到随着迭代训练损失的变化（箭头方向），其中红色线为SimSCE在两个评测方向的变化相对最好。

有监督数据训练SimCSE

文中还研究了SimSCE对比学习如何利用有监督学习的数据来提升模型的表现力。具体使用自然语言推理任务（NLI）数据，NLI用以判断两个句子的关系是：蕴含、中性或矛盾。利用训练集中的标注信息产生对比学习中的正/负例。

选择标注数据
为对比 NLI 的提升效果，先探索了一些构造正例的方法：

使用Kaggle比赛的QQP数据集，它的训练数据标注了两个问句语义是否相同。
使用Flickr30，对每个图片人工标注了五个标题，可将其中的两两标注组成正例对。
使用ParaNMT，大规模的反向翻译数据集（如：中->英->中），作为正例对。
使用NLI任务数据集，最终NLI数据集效果最好，这是由于它包含高质量的众包人工标注，并且正例中词汇重合度小（同一词在两个正例对中均出现）。

将矛盾关系对作为硬负例
为了更好利用NLI数据集，利用标注为矛盾的实例，生成硬负例，并修改了损失函数，实验证明了它的有效性：

可以看到，这里硬负例被充分利用（被计入了N次），图-4展示了实验结果：

为了公正的对比，sample列只采样了134k正例来训练模型。可以看到不同任务训练的模型对 STS-B 效果的提升。

各向异性

各向异性意思是所有向量都被映射在了一个“狭窄”的高维空间。而uniformity是评价所有实例在向量空间中是否均匀分布，SimCSE在uniformity方面提升，也改善了自然语言编码的各向异性问题。

图-3对比了目前各种流行模型的alignment和uniformity：

实验

主实验使用句子相似度任务，在有监督和无监督两方面，对比了不同方法的效果：

可以看到SimSCE效果已超过了目前业界使用最为广泛SBERT（挛生网络）模型。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

xieyan0811 CSDN认证博客专家 CSDN认证企业博客

码龄17年

610: 原创

1万+: 周排名

683: 总排名

247万+: 访问

: 等级

2万+: 积分

4764: 粉丝

2175: 获赞

284: 评论

6724: 收藏

私信

关注

热门文章

分类专栏

论文阅读 90篇
大模型 43篇
机器学习 40篇
研究思考 1篇
深度学习 45篇
算法实战 28篇
Pytorch 14篇
时序 3篇
Docker 4篇
股票数据分析 9篇
大数据 30篇
少儿编程 3篇
移动开发 112篇
linux 34篇
工具 45篇
搭建网站和服务 9篇
Arduino 18篇
Python 26篇
图形图像 20篇
区块链
随笔 9篇
自然语言处理 28篇
未发 1篇

最新评论

论文阅读_检索增强生成 RAG 综述
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Obsidian+llama3：终于搭建了自己的知识库
艾学习: 有使用案例吗？
论文阅读_OpenAI嵌入+Lucene
征途黯然.: The article is fantastic, and 论文阅读OpenAI嵌入Lucene is truly impressive.
论文阅读_基于嵌入的Facebook搜索
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读_基本于文本嵌入的信息提取
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。