错误一大堆，为什么机器翻译还有人用？-CSDN博客

导读：当前机器翻译的研究目标并不是实现完美的翻译，而是尽可能降低机器翻译系统的错误率。

本文将为你介绍机器翻译的五大应用。

作者：菲利普·科恩（Philipp Koehn）

来源：华章计算机（ID：hzbook_jsj）

01 信息获取

相比其他翻译系统，谷歌翻译系统将机器翻译技术带给了更多的用户。它直接为需要进行翻译任务的用户提供翻译服务。

当人们试图在互联网上查询信息时，有可能会看到外语网页，例如解决电脑问题的芬兰语页面或者解释如何购买巴黎地铁票的法语页面等，此时，你只需要点击“翻译该页面”的按钮，就可以看到网页被翻译成了英语或其他你熟悉的语言（见图2.1）。

▲图2.1 网页的自动翻译，以法语所写的巴黎地铁相关信息和机器翻译成英语的结果，由RATP提供：

www.ratp.fr/visiteparis/francais/preparez-votre-sejourparis-les-horaires

谷歌翻译引擎链接了所有语言的网页。更难得的是，它能够将英语内容翻译成其他语言。我们知道，英语仍然是互联网上的主导语言（如在大规模的维基百科页面中），一些前沿科学信息等非常有价值的内容可能在其他语言中没有相关的介绍。

用户也对互联网上的跨语言信息获取技术有着清晰的定位和期望。当用户使用机器翻译时，用户实际上知道译文是由一台机器生成的，因此当发现其中存在错误且不流畅时，会将其归咎于技术的局限性，而不会认为是信息发布者的问题。

把机器翻译应用于信息获取也是美国大部分研究经费的主要驱动力。其中一个资助项目（最近的DARPA LORELEI）提出了一个典型的挑战：在国外发生的灾难中，救援人员需要获取求生信息，就必须理解受灾人员所说、所写和在推特上发布的内容。

同时，机器翻译也有许多商业应用。专利律师需要知道中文版专利的权利主张，新闻记者需要了解外国的发展情况，对冲基金经理需要获得以任何语言发布的影响公司盈利能力的信息。

即使是低质量的机器翻译也是有用的。了解文件的要旨就足以判断其是否相关，仅需要将相关的文件交付给语言专家，让其更细致地翻译。

但是这种信息获取方法也存在一个问题。在翻译过程中，译文与原文的原始语义是否有偏离，需要由用户去检测。用户可以通过分析语法错误和语义的逻辑错误等线索进行检测。但是错误的译文有可能会误导用户。

由误译所导致的信息错误传递是神经机器翻译中被关注的一个重要问题，神经机器翻译有时更侧重流畅度而忽略了忠实度，从而导致输出和输入的语义完全不匹配。因此，如果仅由机器翻译模型输出译文，那么显示译文置信度评分用以表明译文的可靠性就成为一个重要因素。

02 人工辅助翻译

翻译是一个庞大的行业，但是机器译文质量并不令人满意，因此客户不会为此付出太多费用。高质量的翻译需要依靠以目标语言为母语的专业译员进行翻译，而且最好由该业务方面的领域专家进行翻译。翻译行业大部分是由语言服务提供商构成的，它们通常将自己的翻译工作外包给自由译员。

虽然机器翻译在质量上无法与专业译员媲美，但它可以提高译员的效率。20世纪90年代，随着翻译记忆工具的推广，译员曾经依赖笔和纸的工作方式也发生了变化。我们可以把翻译记忆工具看作可搜索的平行语料库，当遇到需要翻译的句子时，该工具搜索先前的翻译语料库，找到最相似的句子，并将其与译文一起呈现给译员。

当专业译员定期为同一客户服务且翻译重复性的内容（如年度报告、法律合同和包含大量重复文本的产品描述等）时，他们的翻译速度会加快。

让专业译员接纳机器翻译系统是一个非常漫长的过程，至今尚未彻底完成。对于某些类型的翻译工作而言，机器翻译系统并不是一个有用的工具，例如，市场信息的翻译必须考虑到目标所在地文化的细微差别，文学和诗歌的翻译也是如此。但是对于许多传统的翻译工作，机器翻译还是有帮助的。

机器和人之间早期的合作方式是机器翻译系统向专业译员提供原始输出，然后专业译员再进行修改，这叫作机器翻译的译后编辑。图2.2比较了专业译员在译后编辑和未借助机器翻译条件下的翻译速度。研究表明，翻译效率提高了42%～131%。在这个价值数十亿美元的产业中，上述翻译效率的提高产生了巨大的影响。

▲图2.2 采用机器翻译能够提升翻译效率（按每小时翻译的单词数衡量）。结果来自Autodesk（Plitt & Masselot，2010）的研究，该研究利用构建的翻译系统在多个语言对上进行了实验

研究人员一直在努力促使机器翻译更加具有适应性和交互性。适应性是指机器翻译系统向译员学习，译员在逐句地翻译文档时，新生成的句对成了机器翻译系统所需要的新的训练数据。这是训练机器的最佳方式，因为新的训练数据包含了正确的风格和内容。

从技术角度看，我们需要建立能够根据新输入的训练句对进行快速更新和调整的机器翻译系统。

交互式机器翻译也称为交互式翻译预测，是一种协作模式，机器翻译系统向译员提出建议，并在译员不采纳该建议时更新之前的建议。因此，机器不再提供源语言句子的静态译文，而是根据专业译员的选择做出预测。

03 交流

机器翻译第三个广泛应用的领域是交流。它可以直接为两个不同语言的说话人的对话提供便利，但是也带来了许多新的挑战，它需要与语音处理等其他技术相结合，从而顺利实现自然的交流方式。用于交流的机器翻译的速度必须很快，翻译过程甚至必须在说话人结束一个句子之前就开始，才能避免停顿。

1. Skype翻译器

微软在这一领域最雄心勃勃的项目之一就是将机器翻译整合到Skype系统中。这个想法能够让你通过Skype翻译对话，有可能你说的是英语，而你的朋友说的是西班牙语。

语音已经可以通过计算机传送，所以需要对语音进行额外的处理。仔细研究这个问题，可以发现有三个不同的步骤：

对输入的语音进行语音识别，即转录成文本；
机器翻译；
对译文进行语音合成。

理想的情况下，语音合成也能够再现原始语音的重音和情感极性，甚至可能再现说话人的原始声音。但是，在大部分实际应用中，往往忽略语音合成这一步，把经常出现错误的译文输出到屏幕上来供大家阅读，而不是说出来让大家去听，因为这样更容易让人接受一些。

口语所使用的词汇量通常要少于书面语，但是现有的双语平行文本翻译语料库与口语中使用的语言的风格往往不一致，口语中更多地使用代词“I”和“you”及相应的动词形态变化、问句、不流畅和重新开始等不合乎语法的表达、更通俗的语言，以及俚语等，这都与书面语有很大的差异。

事实上，不符合语法甚至语无伦次的语言现象相当严重，以至于你可能都不想回看自己日常讲话的笔录。对话翻译系统的开发者发现，使用包含电影和电视字幕的语料库训练模型是非常有用的（Lison & Tiedemann，2016）。

2. 聊天翻译

交流并不意味着语音传送。聊天论坛也已经成功地集成了机器翻译功能，用户可以用自己的语言在那里输入他们的问题和答案。聊天论坛的范围从自由娱乐到客服，大多数关于使用不同语言的担忧在这里也存在。聊天文本还存在其他独特的现象，例如表情符号、俚语缩写和频繁的拼写错误等。

在质量要求方面，聊天翻译的标准不如用于出版的机器翻译要求高。如果机器翻译系统出错，交流中的对方很可能会发现并指出这些错误，并尝试阐明其含义。不过，有些错误也可能让他们觉得自己受到了冒犯。

3. 旅游翻译

当你去外国旅行时，翻译需求就变得更加明显了。旅行译员的概念在《银河系漫游指南》（Hitchhiker's Guide to The Galaxy）中广为流传，书中的旅行译员是一个名叫“宝贝鱼”（Bablefish）的设备，把它放在耳朵里，它就可以翻译传来的声音。

如今的翻译工具比上述想象的更进一步。目前典型的应用是手持设备或者手机应用程序。旅游翻译所用的实际技术与前面讨论的语音和聊天应用程序类似。如果设备具备语音翻译能力，较为实用的功能是在屏幕上也显示口语原文，这样说话者就可以验证他所说的话是否被正确地理解。

考虑到上述技术并不完善，也考虑到环境噪声和有限的计算资源（云计算是一种选择，但会增加额外的延迟）等其他因素，最鲁棒的旅游翻译系统仍然以文本翻译为主，语音识别仅作为附加功能。

旅游翻译还有一个有趣的应用方向：图像翻译。想象一下，当你到了一家餐馆看到一份菜单，上面写着难以辨认的文字和晦涩难懂的符号，只需使用旅游翻译应用程序的相机功能对它进行拍照，翻译系统就可以将所拍图像中的文字翻译成想要的语言。

这类手机应用程序的早期版本的翻译组件非常简单，它们只使用字典进行翻译，但也增加了一些很好的其他功能，如在翻译中模仿原文的字体（见图2.4）。

▲图2.4 以德语所写的指示牌和利用谷歌图像翻译的结果

4. 讲课翻译

最早使用语音翻译进行讲课翻译的大学是卡尔斯鲁厄理工学院（Fügen et al., 2007；Dessloch et al., 2018）。尽管在讲课翻译中有更好的声学条件和更标准的讲话风格，但是仍然需要解决融合语音识别和机器翻译时面临的所有主要挑战。

在这些方面中，早期的尝试不仅将语音识别后的文本传送给机器翻译模块，而且着眼于更加紧密的集成，例如传送存在备选翻译的n-best列表或编码不同识别路径评分的词格，然后让机器翻译系统使用额外的上下文信息消除语音信号中存在的错误。

但是，这项研究没有太多收获，人们发现仅传送和处理1-best的识别结果往往是最好的，同时还能保持简单的管道式处理方式。

集成中的另一个有趣挑战是，书面文本中包含标点符号，而口语中没有。此外，在文本中数字通常写成阿拉伯数字形式（如15），而语音识别可能将其识别成实际说出来的单词（“fifteen”）。

5. 手语翻译

最后一个有趣的翻译挑战是手语翻译。聋人群体会自发地用丰富的手势和面部表情表达口语所能传达的内容。手语有几个被广泛接受的标准，如美国手语（American Sign Language，ASL）。手语中有一些有趣的特性，如指向空间中的某个点，然后再指回该点表示建立共同参照系。

视频中的手语翻译是一个有趣的挑战，它已经远远超出了机器翻译的范畴，需要进行复杂的图像识别。针对书面形式的手语翻译已经取得了一些成功，但总的来说，这仍然是一个令人兴奋的开放性问题。

04 自然语言处理的管道式系统

包括机器翻译在内，自然语言处理最近已经成熟到可以在许多实际应用中使用的地步，其中部分应用早在机器翻译之前就已经非常成功了，如文本搜索（如谷歌），有些则是当前研究的热点，如个人智能助理（如亚马逊的Echo），而另一些应用仍然属于对未来的预期，如客服对话系统、面向复杂问题的问答系统或者让人信服的辩论系统。

像人一样说话的机器有着广阔而巨大的潜能，如何将其转化为实际应用并追踪其进展是一个挑战，例如，我们始终以人的行为表现为基准来衡量机器的性能。

与自然语言处理的其他应用相比，机器翻译是一个我们可以衡量进展的、相对明确的任务，当然专业译员对句子准确翻译的标准仍然存在分歧。其他任务，如文档内容摘要的连贯性评价或者开放域聊天系统的性能评价，都没有明确的定义。

机器翻译还有可能成为更大自然语言处理应用的一部分。以跨语言信息检索为例，如果我们不仅在英文网页上进行谷歌搜索，而且还在其他语言的网页上用谷歌搜索可能相关的内容，那会怎么样呢？这需要某种形式的查询翻译、网页翻译或者两者都需要。

美国国家情报高级研究计划局（IARPA）最近启动了一个这样的跨语言信息检索项目，增加了难度更大的低资源数据（如斯瓦希里语、塔加洛语和索马里语等）条件下的跨语言检索任务。

更进一步，跨语言信息抽取不仅需要在文本集合中找到相关信息，而且还必须抽取遵循某种语义模式的核心事实。

例如，查询一组多语种的新闻文章：“find me a list of mergers and acquisitions in the last month”（帮我找到上个月公司并购的清单）。我们希望系统不仅返回相关的信息，而且还能返回一个格式化的表格，其中包括涉及的公司名称、事件日期、货币支付或股票转换情况等。

每一种应用都可能对机器翻译系统的性能提出特殊的要求。以查询项的翻译场景为例，输入的句子可能只有1～2个单词，我们不可能再依赖句子的上下文来消除歧义，但却可以利用用户的搜索历史去消除歧义。同时，不同的应用也可能有不同的要求，例如找到所有的相关文件，就需要更高的召回率。

对于外文文档的某个特定单词，翻译系统的首选译文可能与查询项不匹配，但是单词的其他候选译文可能匹配查询项。如果我们希望这份文档仍然能被检索到，那么可能需要赋予译文一个可靠性的置信度评分。

05 多模态机器翻译

在本文讨论的管道式处理范式中，机器翻译仍然是一个独立的模块，文本作为输入，文本作为输出。人们对多模态机器翻译也越来越感兴趣，其中输入的不仅仅是文本，还有其他模态的附加信息。

最具代表性的任务是图像标题翻译，标题本身可能存在歧义，但是图像的相关内容能够消除标题中的歧义。例如，标题“The girl wears a hat”需要翻译成德语（见图2.5），德语中要区分时尚装饰帽子或防晒的帽子（德语为Hut）和冬天戴的保暖帽子（德国为Mütze）。示例中的图像信息能够消除这种歧义。