论文：Language-agnostic BERT Sentence Embedding翻译笔记（语言无关的BERT句子嵌入）

最新推荐文章于 2024-09-15 17:22:56 发布

QYLZ

最新推荐文章于 2024-09-15 17:22:56 发布

阅读量1.7k

点赞数 39

分类专栏：论文笔记文章标签： bert embedding 人工智能自然语言处理知识图谱 python nlp

本文链接：https://blog.csdn.net/weixin_56242678/article/details/137048321

版权

论文笔记专栏收录该内容

37 篇文章 0 订阅

订阅专栏

在这里插入图片描述

论文标题：语言无关的BERT句子嵌入

论文链接：https://arxiv.org/abs/2007.01852
arXiv:2007.01852v2 [cs.CL] 8 Mar 2022

摘要

虽然BERT是一种有效的学习单语句子嵌入的方法，用于语义相似性和基于嵌入的迁移学习（Reimers和Gurevych，2019），但基于BERT的跨语言句子嵌入尚未被探讨。我们系统地研究了通过结合最佳的单语和跨语言表示学习方法来学习多语言句子嵌入的方法，包括：掩码语言建模（MLM）、翻译语言建模（TLM）（Conneau和Lample，2019年）、双编码器翻译排名（Guo等人，2018年）和加性余量软最大值（Yang等人，2019a）。我们证明，在引入预训练的多语言语言模型后，通过减少80%，可以大大降低平行训练数据的数量，从而实现良好的性能。通过组合这些方法中的最佳部分，产生了一个模型，在Tatoeba上以112种语言实现了83.7％的双语检索准确度，远高于Artetxe和Schwenk（2019b）实现的65.5％，同时在单语迁移学习基准测试中表现依然具有竞争力（Conneau和Kiela，2018）。并行数据从CommonCrawl中挖掘出来，并使用我们最好的模型训练出具有竞争力的英语-中文和英语-德语NMT模型。我们将最好的多语言句子嵌入模型公开发布到109+种语言，网址是https://tfhub.dev/google/LaBSE.。

1 介绍

在这篇论文中，我们系统地探讨了使用预训练语言模型与现有最佳方法相结合来学习跨语言句子嵌入。这种嵌入对于聚类、检索和下游任务中文本表示的模块化应用非常有用。虽然现有的跨语言句子嵌入模型采用了大型转换器模型，但使用大型预训练语言模型尚未得到充分研究。相反，在之前的工作中，编码器是直接在翻译对上进行训练的（Artetxe和Schwenk，2019b；Guo等人，2018年；Yang等人，2019a），或者在翻译对与单语输入响应预测相结合的情况下进行训练（Chidambaram等人，2019年；Yang等人，2019b）。

在我们的探索中，如图1所示，我们采用了双编码器模型，这种模型已被证明是学习双语句子嵌入的有效方法（郭等人，2018；杨等人，2019a）。然而，与之前的工作不同，我们不是从头开始训练编码器，而是研究使用基于大型语言模型的预训练编码器。我们对比了带有和不带有加性边际softmax（Yang等人，2019a）的模型。图2展示了我们的工作在语言模型预训练和句子嵌入学习领域的地位（阴影部分）。

在这里插入图片描述

图1：具有基于BERT的编码模块的双编码器模型。

在这里插入图片描述

图2：我们的工作（阴影部分）与语言模型预训练和句子嵌入学习的相关工作对比。

我们的大规模多语言模型在大型双语文本检索任务上超过了以前的技术水平，包括联合国（UN）语料库（Ziemski等人，2016年）和BUCC（Zweig-enbaum等人，2018年）。表1比较了我们最好的模型与其他最近的多语言工作。
在这里插入图片描述

表1：LaBSE模型与其他最近的跨语言嵌入模型比较。[DE]：双编码器。[HN]：硬负样本。[AMS]：加性余量软最大值。[PT]：预训练。

联合国语料库和BUCC都涵盖了资源丰富的语言（如法语、德语、西班牙语、俄语和汉语）。我们进一步在Tatoeba检索任务（Artetxe和Schwenk，2019b）上评估我们的模型，该任务覆盖了112种语言。与LASER（Artetxe和Schwenk，2019b）相比，我们的模型在低资源语言上的表现显著更好，将112种语言的整体准确率提高到83.7%，高于以前最先进的65.5%。令人惊讶的是，我们观察到我们的模型在30多种Tatoeba语言上表现良好，而我们没有这些语言的明确单语或多语训练数据。最后，我们的嵌入式表现具有竞争力，在SentEval句子嵌入迁移学习基准测试中（Conneau和Kiela，2018）。

本文的贡献是：

一种新颖的预训练和双编码器微调相结合的方法，以提高翻译排名性能，实现了在双文本挖掘方面的新水平。
公开发布的多语言句子嵌入模型，涵盖109种及以上的语言。
通过彻底的实验和消融研究来了解预训练、负采样策略、词汇选择、数据质量以及数据量的影响。

我们发布预训练模型的网址是https://tfhub.dev/google/LaBSE。

跨语言句子嵌入

双编码模型是学习跨语言嵌入的有效方法（郭等人，2018；杨等人，2019a）。这些模型由一对编码模型组成，它们为评分函数提供输入。源句子和目标句子分别进行编码。从每个编码器中提取句子嵌入。通过使用翻译排名任务和批次内负样本采样来训练跨语言嵌入：
在这里插入图片描述
x和y的嵌入空间相似度由φ(x, y)给出，通常φ(x, y) = xy^T。损失函数试图在同一个批次中的N-1个备选方案中将y_i（x_i的真实翻译）排在前面。请注意，L是不对称的，并且取决于softmax是在源句子还是目标句子上进行计算。为了实现双向对称性，最终损失可以将源到目标的损失L和目标到源的损失L’相加（Yang等，2019a）：
在这里插入图片描述
使用翻译排名损失直接最大化共享嵌入空间中翻译对的相似性的双编码器模型。

2.1 加性边际softmax

加性边际softmax通过在正对周围引入边缘m扩展评分函数φ（Yang等，2019a）:
在这里插入图片描述
边距m可以提高翻译和附近非翻译之间的分离度。使用带有双向损失¯L_s的φ′(x_i，y_j)，我们得到了加性边距损失。

2.2 MLM和TLM预训练

仅有一些早期的工作将使用翻译排名损失进行训练的双编码器与使用大型预训练语言模型初始化的编码器相结合（Yang等，2021）。我们将使用随机初始化的转换器与使用大型预训练语言模型进行对比，这是在以前的研究中所做的（Guo等，2018；Yang等，2019a）。在预训练阶段，我们结合了遮盖语言建模（MLM）（Devlin等人，2019）和翻译语言建模（TLM）（Conneau和Lample，2019）。MLM是一种闭合任务的变体，模型利用围绕[MASK]标记的上下文词来尝试预测[MASK]词应该是什么。TLM将这种建模扩展到多语言环境，通过修改MLM训练，包括连接的翻译对。

多语言预训练模型，如mBERT（Devlin等人，2019年），XLM（Conneau和Lample，2019年）和XLM-R（Conneau等人，2019年）在各种跨语言自然语言处理任务中取得了显著的提升（Hu等人，2020年）。然而，如果没有句子级别的目标，它们不能直接产生优秀的句子嵌入。如胡等人（2020年）所示，这些模型在双语文本检索任务上的性能非常弱，例如XLM-R大型模型在Tatoeba数据集的37种精选语言上仅获得57.3％的准确率，而使用Laser可达到84.4％的准确率（更多模型的性能见表5）。我们贡献了一个详细的探索，即利用预训练的语言模型生成有用的多语言句子嵌入。

3 语料库和训练细节

3.1 语料库

我们在实验中使用双语翻译对和单语数据。
单语数据 我们从CommonCrawl和Wikipedia收集单语数据。我们使用的是2019-35版本的CommonCrawl，并采用Raffel等人（2019）的启发式方法来去除噪声文本。此外，我们还删除了长度小于10个字符和大于5000个字符的行。wiki数据是从05-21-2020的dump中使用WikiExtractor提取出来的。一个内部工具将文本分割成句子。这些句子通过句子质量分类器进行过滤。经过过滤后，我们获得了17亿条单语句子，约占未过滤版本的50%。单语数据仅在定制预训练中使用。

双语翻译对 翻译语料库是通过使用类似于Uszkoreit等人（2010）描述的方法从网页中构建的。提取的句子对通过预先训练的对比数据选择（CDS）评分模型（Wang等人，2018）进行过滤。人类注释员手动评估从收集的句子对中选择的一个小子集，并将这些对标记为良好的（GOOD）或糟糕的（BAD）翻译。数据选择评分模型的阈值是这样设定的，使得在人工评估中保留的80%的句子对被评为良好（GOOD）。我们进一步限制每种语言的句子对最大数量为1亿，以平衡数据分布。许多语言仍然少于1亿句。最终的语料库包含60亿个翻译对。这个翻译语料库用于双编码器训练和定制预训练。

3.2 配置

在这一部分，我们将详细介绍双编码器模型的训练细节。在所有实验中，我们使用了Transformer编码器（Vaswani等，2017）。我们训练了两个版本的模型，其中一个使用公共的BERT多语言分词词汇表，词汇量为119,547个；另一个版本则采用了针对我们的训练数据提取的自定义词汇表。对于自定义词汇表，我们使用了一个Wordpiece分词器（Sennrich等人，2016），并通过TF Text从训练集中提取了一个大小写词汇表。语言平滑指数设置为0.3，以抵消每种语言可用数据量的不平衡。最终的词汇表大小为501,153。

编码器架构遵循BERT Base模型，具有12个转换器块，12个注意力头和768个每个位置的隐藏单元。所有语言共享编码器参数。句子嵌入是从最后一个转换器块中提取的[CLS]标记表示的l2归一化值。

我们的模型是在Cloud TPU V3平台上训练的，该平台具有32个核心，使用全局批量大小为4096，最大序列长度为128。我们使用AdamW（Loshchilov和Hutter，2019）优化器，初始学习率为1e-3，并采用线性权重衰减。我们对有预训练的模型进行5万步的训练，对没有预训练的模型进行50万步的训练。我们发现，即使进一步训练，性能也没有显著变化。对于加性边际softmax，默认的边际值设置为0.3。我们在一个保留的开发集上调整超参数。

3.3 跨加速器负采样

跨语言嵌入模型在使用批量负样本进行训练时，可以从较大的训练批量大小中获益（郭等人，2018年）。像BERT这样的资源密集型模型由于内存限制，只能使用较小的批量大小。虽然数据并行性确实允许我们通过使用多个加速器来增加全局批量大小，但单个核心上的批量大小仍然很小。例如，在32个核心上运行4096批处理，结果每个核心的本地批量大小为128，这样每个示例仅接收127个负样本。

我们引入了跨加速器负采样，如图3所示。在这种策略下，每个核心对其分配的句子进行编码，然后将所有核心的编码后的句子表示广播作为负样本发送给其他核心。这使得我们能够充分利用更大批量大小的优势，同时仍将计算密集型编码工作分布在多个核心上。
在这里插入图片描述

图3：双编码器框架中的负采样示例。[左]：单个核心中的批内负采样；[右]：使用n个TPU核心和每个核心批量大小为8的同步多加速器负采样，来自其他核心的示例均被视为负样本。

要注意的是，点积评分函数可以使在同一个批次中计算对角线网格中的所有正标签的对数得分变得高效，使用矩阵乘法。在图3中，格子中的数值表示地面真实标签。每个行上应用了一个softmax函数。

3.4 预训练

编码器通过Masked Language Model（MLM）（Devlin等人，2019）和Translation Language Model（TLM）（Conneau和Lample，2019）进行预训练，分别在单语数据和双语翻译对上进行训练。对于一个L层的Transformer编码器，我们使用了一个3阶段的渐进式堆叠算法（Gong等人，2019），其中我们首先学习一个L/4层的模型，然后是L/2层的模型，最后是所有的L层。早期阶段学习到的模型参数会被复制到后续阶段的模型中。

预训练使用了512核的TPUv3和批处理大小为8192。最大序列长度设置为512，每个序列中20%的标记（或最多80个标记）被掩盖以进行MLM和TLM预测。对于三个阶段的渐进式堆叠，我们分别使用所有单语和双语数据进行了40万、80万和180万步的训练。

4 评估任务

4.1 双语检索

我们对三个双语检索任务进行评估：联合国（UN）、Tatoeba和BUCC。所有任务都是为了从每个非英语句子中检索出正确的英语翻译。

联合国（UN） 包含86,000份经过五个语言对（en-fr，en-es，en-ru，en-ar 和 en-zh）双语对齐的文件。总共可以从这些文件对中提取出1130万条对齐的句子对。大量的翻译候选词使这个数据集具有特别的挑战性。

Tatoeba 评估了112种语言的翻译检索（Artetxe和Schwenk，2019b）。该数据集包含每种语言多达1000个句子以及它们的英文翻译。我们对原始版本进行了性能评估，覆盖了所有112种语言，还对XTREME基准测试中的36种语言版本进行了评估（Hu等人，2020）。

BUCC 是一项并行句子挖掘共享任务（Zweigenbaum等，2018）。我们使用2018年的共享任务数据，包含四种语言对：法语-英语、德语-英语、俄语-英语和汉语-英语。对于每一对，该任务提供单语语料库和黄金真实翻译对。任务是从单语数据中提取翻译对，并使用F1对其进行与地面真相的评估。由于BUCC测试数据的真相未被公开，我们遵循之前的研究方法，使用BUCC训练集进行评估而非训练（Yang等，2019b；Hu等，2020）。句子嵌入余弦相似性用于识别翻译对。

4.2 下游分类

我们还评估了多语言句子嵌入在下游分类任务中的迁移性能，这些任务来自SentEval基准测试（Conneau和Kiela，2018）。我们选择了一些SentEval的任务进行评估，包括：(MR)电影评论（Pang和Lee，2005），(SST)情感分析（Socher等人，2013），(TREC)问题类型（Voorhees和Tice，2000），(CR)产品评论（Hu和Liu，2004），(SUBJ)主观性/客观性（Pang和Lee，2004），(MPQA)观点极性（Wiebe等人，2005）以及(MRPC)释义检测（Dolan等人，2004)。虽然SentEval只支持英语，但我们利用这个基准测试来直接与以前的句子嵌入模型的研究进行比较。

5 结果

表2显示了在联合国和Tatoeba双语文本检索任务上的性能，并与之前的最先进的双语模型进行了比较，包括Yang等人（2019a），LASER（Artetxe和Schwenk，2019b）以及多语言通用句子编码器（m-USE）（Yang等人，2019b）。第1-3行展示了作为基线模型的性能，如原始论文中所报告。
在这里插入图片描述

表2：不同模型配置的UN（P@1）和Taoteba（平均准确率）性能。Base使用双向双编码器模型。[AMS]：加性余量softmax。[PT]：预训练。

第4-7行展示了使用公共mBERT词汇表的模型的性能。基线模型在联合国排名中的表现相当不错，P@1准确率在57%-71%之间。它还在Tatoeba上表现出色，36种语言组和所有语言的准确率分别为92.8%和79.1%。在模型中添加预训练可以帮助模型更快地收敛（详情请参阅第6.2节），并提高使用两个词汇表进行联合国检索的性能。预训练对Taoeba也有帮助，但只使用自定义词汇表。加性边际softmax显著提高了所有模型变体的性能。

最后两行包含两个使用自定义词汇表的模型。根据上面实验的有力证据，这两个模型都是使用加性边际softmax进行训练的。两个模型都优于基于mBERT词汇表的模型，而经过预训练的模型表现最佳。顶级模型（带有自定义词汇表、加性边际softmax和预训练的基线模型）在四种语言中的三种上取得了新的最佳状态，以P@1 91.1、88.3和90.8的成绩分别用于en-es、en-fr和en-ru。它在zh-en上达到了87.7，仅比最好的双语en-zh模型低0.2，并且比之前的最佳多语言模型好近9个点。在Tatoeba上，最好的模型也大大超过了基准模型，在XTREME的36种语言组上准确度提高了10.6，所有语言上的准确度提高了18.2。

值得注意的是，我们的所有模型在Tatoeba上表现相似，但在UN上却不是这样。这表明，在大规模双语检索任务上进行评估是必要的，以便更好地分辨竞争模型之间的差异。在本文的其余部分，除非另有说明，我们将LaBSE称为在这里表现最佳的模型——Base w/ Customized Vocab + AMS + PT。

表3提供了LaBSE在BUCC上的检索性能，与Artetxe和Schwenk（2019a）以及Yang等人（2019a）的强基线进行比较。遵循以往的研究，我们进行了前向和后向检索。向前检索将英语作为目标语言，其他语言作为源语言，向后检索则反之。 LaBSE不仅在系统上超过了以往的工作，而且在一个单独的模型中涵盖了所有语言。以前的最佳表现需要四个独立的双语模型（杨等，2019a）。
在这里插入图片描述

表3：使用余弦相似度分数的BUCC训练集精度（P）、召回率（R）和F分数。阈值选择在训练集上获得最佳F分数。按照BUCC任务的命名方式（Zweigenbaum等人，2018），我们将en作为目标语言，其他语言作为源语言进行前向搜索。后向搜索则反之。

5.1 下游分类任务的结果

表4给出了LaBSE在SentEval基准测试（Conneau和Kiela，2018）上的迁移性能，与其他最先进的句子嵌入模型进行比较。尽管LaBSE在一个模型中覆盖了大量的语言，但它仍然获得了与单语英语嵌入模型和16种语言的m-USE模型相当的竞争性迁移性能。
在这里插入图片描述

表4：来自SentEval（Conneau和Kiela，2018）的英语迁移任务性能。我们比较了LaBSE模型与InferSent（Conneau等人，2017）、Skip-Thought LN（Ba等人，2016）、Quick-
Thought（Logeswaran和Lee，2018）、USE_Trans（Cer等人，2018）和m-USE_Trans（Yang等人，2019b）。

6 分析

6.1 加性余量软最大值

上述实验证明，加性边际软最大是学习良好跨语言嵌入的关键因素，这与Yang等（2019a）的发现一致。我们进一步研究了边际大小对我们三个模型变体的影响，如图4所示。模型在添加0作为附加边际值时，在UN任务上的表现较差，三个模型变体的平均P@1约为60。当边际值为0.1时，与没有边际相比，该模型显著提高，平均P@1达到70年代至80年代。增加边际值会持续提高性能，直到达到0.3。这种趋势在所有模型上都是一致的。

在这里插入图片描述

图4：在UN检索任务中，使用不同margin值训练的模型的平均P@1百分比。

6.2 预训练的有效性

为了更好地理解最终LaBSE模型中MLM/TLM预训练的有效性，我们探索了一种使用自定义词汇表但不进行预训练的模型变体的训练效果。结果如图5所示。我们通过调整训练步骤的数量来对两种模型进行实验，包括：5万步、10万步、20万步和50万步。一个带有预训练编码器的模型在经过50K步训练后就已经达到了最高性能，进一步训练并不能显著提高性能。然而，没有进行预训练的模型在只训练50K步时表现很差。随着额外的训练步骤，它的性能逐渐提高，并在500K步时接近于预训练模型的性能。然而，总体性能仍然略差一些。此外，超过50万步的进一步训练并不能显著提高性能。预训练因此既提高了性能，又极大地减少了所需的并行数据量。关键在于，该模型在50万步时已经看到了10亿个例子，而5千个模型只看到了2亿个例子。
在这里插入图片描述

图5：在不同训练步骤下，模型在UN检索任务中的平均P@1百分比。

6.3 低资源语言和没有显式训练数据的语言

我们通过在Tatoeba上进行进一步的实验来比较以前的工作并找出更广泛的趋势。除了36种语言组和所有语言组之外，还评估了另外两个由14种语言组成的小组（从m-USE覆盖的语言中选择），以及82种语言组（由LASER训练数据覆盖）。表5提供了LaBSE在四种从Tatoeba获取的语言分类上实现的宏观平均准确度，与LASER和m-USE进行比较。所有三个模型在m-USE支持的14种主要语言上表现良好，每个模型都实现了平均准确度>93%。LaBSE和LASER都比m-USE表现略好，准确度为95.3%。随着更多语言的加入，LaBSE和LASER的平均准确率都在下降，但LASER的下降速度明显更快。在包含36种语言、82种语言和112种语言的语料库上，LaBSE系统性地超过了LASER，分别提高了10.6%、11.4%和18.2%。

在这里插入图片描述

表5：Tatoeba数据集的准确率（%）。[14种语言]：USE支持的语言。[36种语言]：XTREME选择的语言。[82种语言]：Laser有训练数据的语言。所有语言：Tatoeba支持的所有语言。

图6列出了我们在其中没有明确训练数据的语言的Tatoeba准确度。总共有30多种这样的语言。大多数语言的表现令人惊讶地好，平均准确度在60%左右。近三分之一的语言准确度超过75%，只有7种语言的准确度低于25%。一个可能的原因是，语言映射是手动完成的，一些语言与有训练数据的语言相近，但可能会根据ISO-639标准和其他信息进行不同对待。另外，由于使用了自动语言检测，一些缺失语言的数据可能会在训练过程中被包含进来。我们还怀疑，那些表现良好的语言与我们有训练数据的语言相近。例如，粤语（yue）和吴语（wuu）与汉语（zh）有关，而法罗语（fo）与冰岛语（is）有相似之处。在如此多的语言之间进行跨语言的泛化只有在LaBSE的大规模多语言特性下才可能实现。
在这里插入图片描述

图6：对于那些没有显式训练数据的语言，Tatoeba的准确率。平均（AVG）准确率为60.5%，列在第一。

6.4 语义相似性

语义文本相似性（STS）基准（Cer等，2017）衡量模型在对英语句子对的细粒度相似性进行人类判断的能力。模型根据其与黄金标签的皮尔逊相关系数r得分，范围从0（无关意义）到5（语义等价），中间值捕捉到精心定义的意义重叠程度。STS（句子相似度评分）被用来评估句子级嵌入的质量，它通过衡量句子对嵌入之间的相似度与人类对句子意义相似性的感知程度来实现这一目标。

表6报告了LaBSE与现有句子嵌入模型在STS基准测试中的性能。根据之前的研究，LaBSE计算句子对的语义相似度的方法是求取这对句子嵌入向量之间的弧余弦距离。为了比较，我们提供了当SentenceBERT为STS任务微调以及当ConvEmbed训练一个额外的仿射变换以适应STS时的数字。我们观察到LaBSE在英语句子对语义相似性方面的表现比其他句子嵌入模型差。我们怀疑在翻译对上训练LaBSE模型会使其偏向于擅长检测意义等价性，但不太善于区分精细的意义重叠程度。

在这里插入图片描述

表6：语义文本相似性（STS）基准测试（Cer等人，2017）的性能，以皮尔逊相关系数衡量。

最近，Reimers和Gurevych（2020）展示了一种方法，可以将英语句子表示模型提炼成一个学生多语言模型，使用语言对齐损失。提炼后的模型在（多语言-）STS基准测试中表现良好，但在双语检索任务上与最先进的模型相比表现不佳。我们的方法是互补的，并且可以与他们的方法结合使用，以提炼出更好的学生模型。

7 从CommonCrawl挖掘平行文本

我们使用LaBSE模型从CommonCrawl（一个大规模多语言网络语料库）中挖掘平行文本，然后在挖掘的数据上训练NMT模型。我们实验了两个语言对：英语到中文（en-zh）和英语到德语（en-de）。我们从作为上述自监督MLM预训练描述的单语CommonCrawl数据中挖掘翻译。处理后，有11.7亿、0.6亿、77.3亿句句子，分别对应于中文（zh）、德文（de）和英文（en）。LaBSE嵌入被用于配对每个非英语句子与其最近的英语邻居，删除相似度得分低于0.6的对。对于en-de和en-zh，我们以以下方式训练一个带有Transformer-Big（Vaswani等，2017）的模型：首先我们在挖掘的数据上训练模型120,000步，批处理大小为10,000。然后我们使用Wang等（2018）的数据选择方法选择最好的20%，并继续训练80,000步。

表7中的结果显示了挖掘训练数据的有效性。通过参考以前的结果（Edunov等，2018），我们可以看到挖掘的数据在性能上仅比使用WMT17英-德平行数据的最好系统低2.8个BLEU得分。与之前的英-中翻译结果（Sennrich等人，2017年）相比，我们可以看到该模型的表现与WMT17 NMT模型（Sennrich等人，2017年）相当，这个模型是在WMT的英-中平行语料库上训练的。表格还给出了在TED测试集（Qi等人，2018年）上的BLEU性能，其表现与使用CCMatrix（Schwenk等人，2019年）训练的模型相当。

在这里插入图片描述

表7：来源/目标句子的数量以及从CommonCrawl挖掘的平行文本数量。 BLEU得分（英语到多种语言）是在WMT新闻数据集和TED数据集上评估的。我们在WMT新闻集中分别使用wmtnews17和wmt-news14作为中英和德英数据。

8 结论

本文介绍了一种支持109种语言的BERT句子嵌入模型（LaBSE），该模型在各种双文本检索/挖掘任务上取得了比以前最先进的方法更好的性能，同时还提供了更大的语言覆盖范围。我们展示出这个模型在那些LaBSE没有显式训练数据的语言上也有很强的表现，这可能是由于语言相似性和模型的大量多语种特性。大量实验表明，加性余量softmax是训练模型的关键因素，平行数据质量很重要，但在使用预训练语言模型时，增加的平行数据量的效果会减弱。预训练模型已发布在https://tfhub.dev/google/LaBSE上。

A LaBSE_Large

受到近期大型模型取得的进展的启发，我们还训练了一个具有更大模型容量的模型。遵循BERT_Large，我们使用一个带有24层变压器、16个注意力头和1024个隐藏尺寸的LaBSE_Large进行开发。受计算资源的限制，我们对第一阶段预训练进行了100万步的训练，而不是像训练LaBSE模型时使用的逐步多阶段预训练。微调配置与基础LaBSE模型完全相同。

表8显示了LaBSE_Large模型与LaBSE模型在联合国语言性能方面的比较。结果是混合的，平均性能非常接近。我们还在Tatoeba上评估了该模型，所有语言的平均性能也非常接近：83.7（LaBSE）v.s. 83.8（LaBSELarge）。

在这里插入图片描述

表8：联合国（英语到多种语言）的P@1排名。

我们怀疑translate匹配训练目标过于简单，模型无法从当前批次的负样本采样方法中学习更多信息。一个改进的负对比度可以帮助更大的模型学习更好的表示。我们在下文中试验了一种困难的负样本类型，但是可以探索更多类型的困难负样本，如Lu等人(2020)所述。我们将此作为未来的工作。

B 硬负采样

自引入使用双编码器模型学习跨语言嵌入以来，硬负样本（Guo等，2018）已成为学习跨语言句子嵌入的默认数据增强方法（Chidambaram等，2019；Yang等，2019a）。为了获取硬负样本，我们使用一个较弱的双编码器模型进行训练，该模型具有相似的模型结构，但参数更少且训练数据也更少。对于每个训练示例，从候选池中检索那些语义上与正确翻译相似的错误翻译作为“困难负样本”。语义相似性是通过较弱模型生成的嵌入向量的余弦相似度来确定的。将硬负样本应用于大型数据集是具有挑战性的，因为它非常耗时且计算成本高昂。

我们对硬负采样进行了深入研究，主要参考Guo等人（2018）。通过联系原始作者，我们获得了他们的负采样流程，该流程采用了一个较弱的双编码器，使用深度平均网络来识别翻译对。与跨加速器负样本类似，挖掘出的负样本也会附加到每个示例中。

我们只在西班牙语（es）中使用硬负样本进行实验，因为为所有语言获取硬负样本的成本非常高。由于内存限制，我们在每个英语源句子的es中仅附加3个挖掘出的硬负样本。由于每个英语句子在es批次中的示例数量增加了4倍，我们还将批量大小从128减少到32在硬负样本实验中。对于除es以外的语言，训练数据与其他实验相同，但批量大小减小到32个。其他语言照常训练。表9显示了这些模型在联合国（UN）上的结果。所有四种语言的准确度都下降了，即使是在我们拥有硬负样本的en-es中也是如此。我们怀疑性能下降是由于批量大小的减少导致的，因为每个示例中的硬负样本数量增加，受到了内存限制。

在这里插入图片描述