Detecting and Mitigating Hallucinations in Machine Translation

论文题目(王政华):

Detecting and Mitigating Hallucinations in Machine Translation:Model Internal Workings Alone Do Well, Sentence Similarity Even Better


摘要

在机器翻译领域,幻觉问题是众所周知的。与过去相关研究相比,针对于机器翻译中的幻觉问题去除的研究开展的不是很顺利。事实上,以往幻觉去除的方法主要针对于模型在人为因素下产生的幻觉。当幻觉自然生成时,以往的去除方法显示出了它的短板,但是在这种实验环境下(不人为干预产生幻觉),机器翻译最后输出的对数概率含有这丰富的信息。这意味着模型内部特征可以提供比我们预料之外更丰富的信息。在使用外部模型以及外部方法之前,我们心中需要有一个假设:在不借用外部模型的情况下,我们对于幻觉的检测和去除可以进展多远?我们建议使用一种可以衡量源语句对翻译语句贡献度的方法来检测幻觉,因为机器翻译中的幻觉可以被看做源语句与翻译语句的一种“脱离”。这种只使用模型内部特征信息的方法在幻觉的检测以及去除上的效果几乎可以与最好的外部检测方法比肩。同时还探究了,在使用外部模型检测幻觉的情况下,衡量源语句的与翻译语句的句子相似性比直接评价翻译语句的质量效果更好.

1.介绍

1.1 机器翻译幻觉的危害

机器翻译的幻觉体现在翻译语句与源语句的不相关性上,这种不相关性可以被“脱离”这个名词解释。因为这种问题出现的频率很低,所以对于语料级别的指标影响很小,但是对于用户体验的影响是很大的,因为一旦出现这种情况,用户对于系统就会产生严重的不信任。

1.2研究现状与本文的贡献

因为幻觉出现的频率是比较低的,所以以往的研究会通过人为的因素来产生幻觉。比如:
(1)对源语句进行干扰。
(2)在训练数据中心加入噪声。
(3)在域偏移的情况下进行翻译。
幻觉是没法通过一些自动化的指标去衡量的。但是以往的研究总是把幻觉定义为质量很差的语句,并通过一些质量判别标准去衡量幻觉,类似于BLUE以及CHRF,或者遵循一些启发式的规则。
作者调研了之前的相关工作,发现模型内部特征信息很丰富,并且在进行人为的干扰下,以往的方法的效果都表现的不尽人意。

在这种问题的背景之下,本文做了如下工作:

  1. 检测完全幻觉的准确率,ALTI(内部特征方法)是SEQ-LOGPROB的两倍。
  2. 在测试的时候,去除幻觉的效果与使用外部模型的效果几乎并驾齐驱。
  3. 在使用外部模型的情况下,使用源语句与翻译语句的句子相似度(通过跨语言编码器)比直接评测翻译语句的质量来检测幻觉的效果好。

2.背景以及实验条件设置

2.1模型

此次实验使用的模型是fairseq库中基于Transformer的模型。使用WMT’18 German-English news数据进行训练,用其中三分之二的数据进行训练,剩下三分之一的数据当做保留集用于后续的分析。

2.2幻觉数据集

使用上边的模型进行源语句(来源于保留数据集中的数据集)的翻译,并使用人工标注来确定他们的细粒度标签(完全幻觉,强幻觉,错误,正确),人工标注的评判标准是之前的启发式幻觉检测方法,质量评测方法以及不确定性检测方法。
图 1 翻译问题的种类

图 1 翻译问题的种类

在这里插入图片描述

表 1 幻觉的种类

翻译句子后的种类主要包括三种(图1):

  1. 正确,翻译后的句子与参考句子的语义一致并且无歧义。
  2. 错误,undergeneration:源语句的一些关键成分没有翻译出来;names entity mistranslation:命名实体翻译错误;Other errors:其他的一些错误.,比如语句,句法错误等等。
  3. 幻觉(表1),oscillation:一些错误的词汇以及短语的重复;fulley detanched:翻译语句与源语句完全不相关;strongly detanched:翻译语句与源语句部分不相关。

3.幻觉检测方法

幻觉检测方法主要分为三大类,基于参考的检测方法、基于内部特征信息的检测方法、基于外部模型的检测方法。### 3.1基于参考的检测方法

3.1基于参考的检测方法

  1. chrF++:chrf是字符级别n-gram的F-score,chrfF++是在chrF的基础上融合了单词级别的unigrams和bigrams的一个评判标准。
  2. Comet:一个翻译句子的质量评测方法,这个方法是基于参考译文的state-of-art方法。将三个句子(Hypothesis、source、reference)送到encoder进行编码,通过polling提取句子级别的语义,然后将三种类型的embedding拼接起来,通过全连接层来评价Hypothesis的质量。### 3.3基于外部模型的检测方法
    在这里插入图片描述
图 2 comet网络架构

在这里插入图片描述

图 3 ALTI模型

3.2基于内部特征信息的检测方法

  1. Seq-Logprob:翻译语句中每一个token概率对数的和,代表着模型对于输出的的自信度,如果模型越自信,结果越不容易产生幻觉。在之前的实验中,对比于之前两种基于参考的检测方法,这个方法效果是最好的。
  2. ALTI(图3):这个方法可以检测源语句对翻译语句的贡献程度,transformer的每一个block可以看做源语句对目标token贡献度的总和函数,针对每一个翻译语句中的token我们可以得到源语句对它的一个贡献评分,然后对翻译语句的每一个token取得分的平均,作为源语句对翻译语句的一个总的贡献度。

3.3基于外部模型的检测方法

  1. COMET-QE:不需要参考译文直接对翻译后的语句进行质量评估,该模型作为外部模型评判的标准。
  2. LASER:使用知识蒸馏teacher-student训练模式来训练多个跨语言的编码器。训练任务是机器翻译。将源语句与翻译后的语句送入到encoder中,得到嵌入向量,计算向量之间的余弦相似性。
  3. LABSE:编码器是一个基于双向的transformer的bert,并且训练的任务是翻译结果的好坏排序。将源语句与翻译后的语句送入到encoder中,得到嵌入向量,计算向量之间的余弦相似性。
  4. XNLI:encoder是一个在NLI数据上(十五种语言)的RoBERTa,然后计算源语句到翻译语句的隐含概率,然后计算翻译语句到源语句的隐含概率,将这两种隐含概率乘积作为最后的评判指标。在这里插入图片描述
图 4 LASER编码器的训练结构

在这里插入图片描述

图 5 LABSE的编码器训练结构

4.幻觉检测方法的实验

4.1主要实验结果

主要给出AUC以及在召回率为90%下的准确率。
在这里插入图片描述

图 6 幻觉检测结果(AUC,PRECISE)
  1. 内部检测方法ALTI比Seq-Logprob效果好,尤其是在完全幻觉的检测上,准确率是Seq-Logprob的两倍。
  2. 外部检测方法中,使用句子相似性检测幻觉比直接评价质量的效果更好,LABSE效果是最好的,而LASER的效果不是很好,因为LABSE的训练任务是翻译好坏的排序,能很好区分出翻译语句的问题种类。

4.2分析不同方法分数的分布

在这里插入图片描述

图 7 不同方法下问题种类的密度分布
  1. 内部方法,强幻觉现象是是双峰的,证明了内部方法无法将强幻觉与错误和完全幻觉区分开。
  2. COMET和COMET-QE无法区分完全幻觉以及错误,因为完全幻觉以及错误的翻译语句他们的质量都很差。
  3. LABSE:完全幻觉,强幻觉以及错误波峰分开并且重叠部分相对于小,是效果最好的。
  4. LASER三种错误类型的波峰也可以分开,但是重叠部分较大,证明了它在检测任务上的性能并不是很好。
  5. XNLI的密度分布趋向于两端,可以很好区分完全幻觉以及正确的翻译语句。

4.3检测句子的问题种类

在这里插入图片描述

图 8 不同检测方法检测的问题类型分布

图表(图8)解释:在幻觉数据集中,采用不同的检测方法,对每一对训练语料(有多个标签)进行评分,按照升序排序,选取排序结果的前百分之十。然后输出这百分之十的问题种类分布(只考虑主标签),左侧图如图所示。右侧的图是采取跟之前一样的方法,选取百分之二十的数据,然后输出这些问题种类的分布(考虑多标签,每个标签对于不同的种类都有一定的贡献度)。

  1. 三种表现最好的方法(ALTI,XNLI,LABSE)他们的问题种类分布大概是一致的。但是LASER是一个离群点,代表着他检测幻觉能力的不足。
  2. XNLI的低分标记了undergenerations,这个现象很好解释,例如:如果translation是幻觉,交换源语句与翻译语句的顺序,择源语句变成了undergeneration。
  3. 完全幻觉问题是最容易被检测到的。

5.幻觉的去除

本文的幻觉检测方法主要采用了“detech-then-rewrite”方法,首先对翻译的句子进行评分,如果评分过低,就意味着可能出现了幻觉,采用不同的生成策略,生成不同的候选翻译语句,使用排序规则对候选翻译语句进行评分,然后用评分最高的候选句子去替代出现问题的语句。

5.1评价方法

评价指标:
使用质量评测方法:COMMET和BLUE。以及上边实验效果最好的方法LABSE和XNLI。
数据:
从上边的数据集当中,针对每一种错误类型(完全幻觉,强幻觉以及错误)分别采样两百条数据,一共六百条数据。
使用以上指标对六百条数据进行评价,将评分较低的句子进行标记,以便以后对标记数据进行处理。

5.2生成策略

在固定排序算法为COMET的情况下,采用不同的采样策略来评价指标的好坏。不同的采样策略如下:

  1. beam search,设置size为5,选取候选者中最好的一个。
  2. 直接使用beam search,size为n,选取的时候选取n个。
  3. 使用不同的sampling策略,(1)对所有的分布进行采样;(2)采用nucleus sampling,设置p为80%。
  4. 多样性beam search,通过分组或者抑制同一个时间步相同的token的概率来增加采样的多样性。
  5. 蒙特克罗drop out与greedy search的结合以及蒙特克罗drop out与beam search的结合。
    通过实验对比(图9),蒙特克罗drop out与beam search结合效果是更好的。
    通过图10,生成的候选语句的数量越多,最后的幻觉去除效果越好。
    在这里插入图片描述
图 9 不同采样策略的评价

在这里插入图片描述

图 10 生成数量对去除幻觉的影响

5.3排序策略

在这里插入图片描述

图 11 不同reaking方法的比较

图11可以得到如下结论:

  1. 所有的排序算法都比不排序算法去除效果好。
  2. 外部模型评测指标(LABSE)效果是最好的,AITL方法在去除完全幻觉的效果比baseline好很多,但是在其他方面的效果是略差的。

在这里插入图片描述
在数据集中(上边的保留集)采样200条数据,55%是幻觉,25%是错误,剩下的是正确的。让每一条源语句生成四条候选翻译,去除重复并且打乱,使用三个人工去标注,采用投票机制,进行人工标注。
排序方法可以很好地减轻幻觉问题,效果是不排序的两倍多。只使用内部信息进行幻觉检测也取得了很好的效果(图12)。

6.结论

使用AITL(根据模型内部的特征信息的评判标准)进行幻觉的检测以及去除可以达到与使用外部模型差多不多的效果。在不能使用外部模型的情况下,应该多关注于模型本身,不仅可以减少工作量也可以取得不错的效果,这也为未来的工作提供了方向。同时在使用外部模型的条件下,比较源语句与翻译语句的相似性更能检测幻觉。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在卫星时间序列数据中检测变点、趋势和季节性是一项重要的任务。卫星时间序列数据是通过卫星观测到的地球表面上的连续观测数据。这些数据可以用于监测和分析地球表面的变化,如气象、土地利用和植被覆盖等。 首先,检测变点是指在时间序列中找到突变或结构转变的点。变点可能代表了不同的影响因素引起的突变,例如自然事件、人为活动或仪器故障等。通过分析时间序列数据的变化趋势,可以使用一些统计方法来检测这些变点。 其次,趋势是指时间序列数据中长期的变化方式。有时,卫星时间序列数据中的变化可能会逐渐增长或减少,这可以被称为趋势。通过对时间序列数据进行回归分析或移动平均处理,我们可以检测和评估这种趋势。 季节性是指在一年内周期性的重复出现的模式。例如,地表温度通常会因季节变化而发生变化,夏季温度高,冬季温度低。对于卫星时间序列数据,我们可以通过分析数据的周期性变化来检测季节性。一种常用的方法是使用季节分解技术,如STL分解,将时间序列分解成长期趋势、季节变化和随机噪声部分。 通过检测卫星时间序列数据中的变点、趋势和季节性,我们可以更好地理解地球表面的变化,并为环境监测和资源管理提供更准确的信息。这些分析结果可以用于研究气候变化、土地利用变化、植被变化等,以及评估其对环境和人类社会的影响。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值