简略阅读《Testing Machine Translation via Referential Transparency》

Testing Machine Translation via Referential Transparency
 
Abstract
 
近年来,由于深度神经网络的发展,机器翻译软件得到了快速的发展。人们在日常生活中经常使用机器翻译软件,比如在外国餐馆点餐、接受外国医生的医疗诊断和治疗、在网上阅读国际政治新闻等。然而,由于底层神经网络的复杂性和难解性,现代机器翻译软件还远未达到健壮性,产生的翻译质量较差或错误;这可能会导致误解、经济损失、对个人安全和健康的威胁,以及政治冲突。为了解决这个问题,我们引入了参考透明输入(RTIs),这是一种用于验证机器翻译软件的简单、广泛适用的方法。引用透明的输入是一段文本,在不同的上下文中使用时应该有类似的翻译。我们的实际实现,纯度,检测这个属性何时被翻译破坏。为了评估RTI,我们使用Purity对谷歌Translate和Bing Microsoft Translator进行了200个无标记句子测试,检测出123个和142个错误翻译,准确率分别为79.3%和78.3%。翻译错误是多种多样的,包括不充分翻译、过度翻译、词/短语误译、修改不正确、逻辑不清等。
 
I. I NTRODUCTION
 
机器翻译软件旨在将文本从源语言完全自动化地翻译成目标语言。近年来,由于神经网络机器翻译(NMT)模型[1][3]的发展,机器翻译软件的性能有了很大的提高。特别是机器翻译软件(如谷歌Translate[4]和Bing Microsoft Translator[5])在人工评估方面已经接近人类水平。因此,越来越多的人在日常生活中使用机器翻译,如阅读外语新闻和课本,在国外旅游交流,进行国际贸易。这体现在机器翻译软件的使用增加:2016年,谷歌翻译吸引了超过5亿用户,[6]每天翻译超过1000亿单词;NMT模型已经嵌入到各种软件应用程序中,如Facebook[7]和Twitter[8]。
 
与传统软件(如Web服务器)类似,机器翻译软件的可靠性非常重要。然而,现代翻译软件已经被证明会返回错误的翻译,导致误解、经济损失、对个人安全和健康的威胁,以及政治冲突。这种行为可以归因于基于神经网络的系统的脆弱性,例如自动驾驶汽车软件[15],[16],情感分析工具[17][19],以及语音识别服务[20],[21]。同样,NMT模型可能会被敌对的例子(例如源文本[22]中的干扰字符)或自然噪音(例如打字错误[23])所欺骗。这些方法生成的输入大多是非法的,也就是说,它们包含词汇(例如,bo0k)或语法错误(例如,he home went)。然而,机器翻译软件的输入通常在词汇和语法上都是正确的。例如,腾讯开发的微信是一款月活跃用户超过10亿的消息应用,该公司报告称,其内嵌的NMT模型可以返回错误的翻译,即使输入没有词法和语法错误[24]。
 
机器翻译软件仍然缺乏自动测试解决方案,至少部分原因是这个问题相当具有挑战性。首先,大多数现有的可用于测试的平行语料库已经被用于模型训练过程。因此,缺乏高质量的测试预言。其次,与传统软件相比,神经机器翻译软件的逻辑很大程度上嵌入在底层模型的结构和参数中。因此,现有的基于代码的测试技术不能直接应用于NMT测试。第三,现有的AI(人工智能)软件[15]、[17]、[19]、[25]的测试方法主要针对更简单的用例(例如10类分类)和/或清晰的oracle[26]、[27]。相比之下,测试翻译的正确性是一项更复杂的任务:源文本可能有多个正确的翻译,输出空间也更大。最后,现有的机器翻译测试技术[28]、[29]通过语言模型替换句子中的一个单词来生成测试用例(即合成句子)。因此,它们的性能受到现有语言模型熟练程度的限制。
 
我们引入RTIs(参考透明输入),作为验证机器翻译软件的一种方法。RTI的核心思想受到了引用透明性[30]、[31]的启发,这是编程语言(特别是函数式编程)中的一个概念:对于给定的参数,方法应该始终返回相同的值。在本文中,我们将引用透明输入(RTI)定义为在不同上下文中应该具有相似翻译的一段文本。例如,图1中基于《Bad Blood》的电影就是RTI。关键是生成一对包含相同RTI的文本,并检查其翻译是否相似。为了实现这个概念,我们实现了Purity,一个从任意文本中提取短语作为RTIs的工具。具体来说,给定源语言中的未标记文本,Purity通过投票者解析器[32]提取短语,并通过将RTI与其包含的句子或包含的短语分组来构造RTI对。如果同一RTI的翻译之间存在很大的差异,我们将这对文本及其翻译报告为可疑的问题。本文的核心思想在概念上与现有的方法[28],[29]不同,现有的方法是替换一个词(即上下文是固定的),并假设翻译应该只有很小的变化。相反,本文假设RTI在不同的句子/短语之间的翻译应该是相似的(即上下文是不同的)。
 
我们使用Purity来测试谷歌Translate[33]和Bing Microsoft Translator[34],使用He等人从CNN搜集的200句句子。Purity在谷歌Translate中成功报告了154个错误翻译对,在Bing Microsoft Translator中成功报告了177个错误翻译对(79.3%和78.3%),分别给出了123个和142个错误翻译发现的翻译错误是多种多样的,包括翻译不足、过度翻译、词/短语误译、修改不当、逻辑不清等。与目前最先进的[28]、[29]相比,Purity可以报告更多错误的翻译,而且精度更高。由于概念上的差异,Purity可以揭示许多现有方法没有发现的错误翻译(如图6所示)。此外,谷歌Translate和Bing Microsoft Translator平均花费12.74s和73.14s,达到了与最先进的方法相当的效率。RTI的源代码和所有错误翻译发现发布[35]进行独立验证。源代码也将被发布以供重用。本文的主要贡献如下
 
•引入一个新的、广泛适用的概念,参考透明输入(RTI),用于系统的机器翻译验证,
•RTI的实现,Purity,采用一个选区解析器来提取短语和一个词袋(BoW)模型来表示翻译,以及
•实验结果证明了RTI方法的有效性:基于200个无标记句子,Purity在谷歌Translate和谷歌Translate中成功发现123个错误翻译
Bing Microsoft Translator有142个错误翻译,准确率分别为79.3%和78.3%。
 
 
 
 
 
 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值