gpushare.com_基于去噪Transformer的无监督句子编码【EMNLP 2021】

EMNLP 2021 上发表的TSDAE论文介绍了一种使用Transformer结构的序列去噪自编码器进行无监督句子嵌入学习的方法。通过在输入文本中添加噪声,如删除、交换和Mask词汇,训练Encoder生成固定大小的向量,Decoder再还原原始句子。实验结果显示TSDAE在STS数据集上的表现优于SimCSE和BERT-flow。作者还探讨了与BART方法的区别。
摘要由CSDN通过智能技术生成

文章来源 | 恒源云社区

原文地址 | 论文小记

原文作者 | Mathor


这几天忙里偷闲去社区看了看各位版主一开始发的文章。重点找了我最喜欢的版主Mathor的文章,仔细一查,竟然已经发了90多篇,不愧是社区大佬本佬了!

想着看都看了,那就顺手搬运一下大佬的文章吧!

接下来跟着小编的脚步👣,一起看下去吧~

正文开始

EMNLP2021 Findings上有一篇名为TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for Unsupervised Sentence Embedding Learning的论文,利用Transformer结构无监督训练句子编码,网络架构如下所示:
在这里插入图片描述
具体来说,输入的文本添加了一些确定的噪声,例如删除、交换、添加、Mask一些词等方法。Encoder需要将含有噪声的句子编码为一个固定大小的向量,然后利用Decoder将原本的不带噪声的句子还原。说是这么说,但是其中有非常多细节,首先是训练目标
在这里插入图片描述
其中, D D D是训练集; x = x 1 x 2 ⋯ x l x = x_1x_2\cdots x_l x=x1x2x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值