TRANS-ENCODER

TRANS-ENCODER: UNSUPERVISED SENTENCE-PAIR MODELLING THROUGH SELF- AND MUTUAL-DISTILLATIONS
GitHub

论文目的

sentence similarity and paraphrase identification 两句话进行对比有两种常见的方法: bi-encoders and cross-encoders。Bi-encoders产生固定维度的句子表达,效果不如cross-encoders好,cross-encoders句子内产生交互,效果好,但需要微调,且计算昂贵。本论文提出一种无监督的句子对模型 TRANS-ENCODER,结合两种学习框架,同时学习增强的bi-encoders and cross-encoders。在PLM上,首先转换为无监督的bi-encoders,然后在bi-encoders and cross-encoders之间转换。在迭代中,会使用当前框架产生伪标签,该伪标签用于另外一个框架的学习。并提出一个扩展(自蒸馏),在多个PLMs中并行的利用他们的伪标签进行相互蒸馏。比Mirror-BertSimCSE效果好。

相关工作

  • cross-encoder:bert、Roberta
  • bi-encoder:S-bert

TRANS-ENCODER

在这里插入图片描述

TRANSFORM PLMS INTO EFFECTIVE BI-ENCODERS

使用SimCSEMirror-Bert)作为训练bi-encoder的开始(无监督、对比学习),当然任何对比学习方法都可以作为开始

SELF-DISTILLATION: BI- TO CROSS-ENCODER

两句话(sent1,sent2)输入上述训练好的bi-encoder模型,得到相似度(sent1,sent2,score)
使用cross-encoder从上述数据中继续学习,cross-encoder使用原始PLM的权重(后面会有对比试验)。cross-encoder的输入是 “[CLS] sent1 [SEP] sent2 [SEP]”,使用KL散度来计算预测分数和真实分数之间的损失

L B C E = − 1 N ∑ n = 1 N ( y n log ⁡ σ ( x n ) + ( 1 − y n ) log ⁡ ( 1 − σ ( x n ) ) ) L_{BCE}=-\frac{1}{N}\sum_{n=1}^N(y_n\log \sigma (x_n)+(1-y_n)\log (1-\sigma (x_n))) LB

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值