Fast, Effective, and Self-Supervised:Mirror-BERT

最新推荐文章于 2024-07-08 20:01:43 发布

红酒暖心也暖胃

最新推荐文章于 2024-07-08 20:01:43 发布

阅读量668

点赞数 1

分类专栏： nlp 文章标签：自然语言处理深度学习对比学习

本文链接：https://blog.csdn.net/zpp13hao1/article/details/122318997

版权

nlp 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

Fast, Effective, and Self-Supervised: Transforming Masked Language Models into Universal Lexical and Sentence Encoders
GitHub

论文目的

没有经过特定任务微调的预训练MLMs对句子编码是无效的，本论文想基于自监督将MLMs在不引入新数据的前提下对句子编码。提出Mirror-BERT：简单、快速、有效，通过对字符串进行小的修改形成正样本进行微调，有些数据集上效果与sentence-bert可媲美

Mirror-BERT: Methodology

Training Data through Self-Duplication

$X = [x_1, x_2, . . .]$ 原始的数据集
$Y = [1, 2, . . . ∣ X ∣]$ 给每一个数据集一个单独的标签
$D=[(x_1,y_1),(x_2,y_2)]$ 数据集+标签
$\hat D =[(x_1,y_1),(\hat x_1,\hat y_1),(x_2,y_2),(\hat x_2,\hat y_2)]$ 简单的重复一下形成新的数据集，其中 $x_i=\hat x_i,y_i=\hat y_i$ ，数据增强在下一节。

Data Augmentation

parts of input text sequences （mask parts of the input text，单文本操作）
to their representations （ erase (i.e., dropout) parts of their feature maps，正对都操作）
doing both in combination（后面有实验）

Contrastive Learning

$L_b=-\sum_{i=1}^{D_b}\log \frac {\exp (cos(f(x_i),f(\hat x_i))/ t)}{\sum_{j\in \hat N} \exp (cos(f(x_i),f(\hat x_j))/ t)}$

Experimental Setup

Evaluation Tasks: Lexical
Multi-SimLex evaluation set、NCBI-disease、BC5CDR-disease、BC5CDR-chemical、AskAPatient and COMETA
Evaluation Tasks: Sentence-Level
STS 2012-2016 datasets、STS-b、SICK-R、QNLI
Evaluation Tasks: Cross-Lingual

Results and Discussion

比较关注STS的结果，与SimCSE相比，平均结果没有SimCSE好，部分任务略优。
在这里插入图片描述
Mirror各个不同的任务中都用了10k的数据，我印象中SimCSE用的数据较多，经过查验：We randomly sample $10^6$ sentences from English Wikipedia and fine-tune BERT base with learning rate = 3e-5, N = 64. In all our experiments, no STS training sets are used。但是看下图，Mirror-Bert 在10k-20k的时候大部分任务都能取到最好的结果
在这里插入图片描述
在STS任务上做的消融试验，span mask起的作用更大一些，但是两者一起用的时候效果最好。其中drophead method: it randomly prunes attention heads at MLM training as a regularisation step

Mirror-BERT Improves Isotropy?看样子是的

最后与SImCSE进行对比，SimCSE只使用dropout作为数据增强的方法，可以作为Mirror-bert的一种特例。。

阅读感官

从数据增强的角度看，SimCSE的确是它的一个特例，但是SimCSE将对比方法延伸到有监督和无监督两种，且效果的确比Mirror-Bert好，还是danqi女神的作品，如果只想读一篇，我更推荐看SimCSE。

红酒暖心也暖胃

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Fast, Effective, and Self-Supervised:Mirror-BERT

Fast, Effective, and Self-Supervised: Transforming Masked LanguageModels into Universal Lexical and Sentence Encoders论文目的没有经过特定任务微调的预训练MLMs对句子编码是无效的，本论文想基于自监督将MLMs在不引入新数据的前提下对句子编码。提出Mirror-BERT：简单、快速、有效，通过对字符串进行小的修改形成正样本进行微调，有些数据集上效果与sentence-bert可媲美相关
复制链接

扫一扫