超越人类翻译：利用多代理协作翻译超长文学文本

人工智能大模型讲师培训咨询叶梓

已于 2024-11-03 21:35:52 修改

阅读量1.1k

点赞数 18

分类专栏：人工智能 AI前沿大模型实战文章标签：深度学习人工智能语言模型多代理智能体翻译自然语言处理

于 2024-10-15 12:45:00 首次发布

本文链接：https://blog.csdn.net/weixin_44292902/article/details/142881148

版权

人工智能同时被 3 个专栏收录

316 篇文章

订阅专栏

AI前沿

111 篇文章

订阅专栏

大模型实战

75 篇文章

订阅专栏

人工智能咨询培训老师叶梓转载标明出处

文学作品通常包含复杂的语言、比喻表达和文化细微差别，这些特点使得机器翻译系统难以准确捕捉和再现原作的韵味。为了应对这一挑战，来自莫纳什大学、澳门大学和腾讯AI实验室的研究人员提出了一种新颖的多代理框架，用于文学翻译。这一框架基于大模型（LLMs），并通过一个名为TRANSAGENTS的虚拟翻译公司来实现，模拟了传统的翻译出版流程。

想要掌握如何将大模型的力量发挥到极致吗？叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具（限时免费）。

1小时实战课程，您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型，以发挥其最大潜力。

CSDN教学平台录播地址：https://edu.csdn.net/course/detail/39987

TRANSAGENTS：多代理翻译公司

图2为TRANSAGENTS多代理虚拟公司的架构，这个系统由一系列具有不同角色的代理组成，包括CEO、高级编辑、初级编辑、翻译、本地化专家和校对员。

TRANSAGENTS中的每个角色都有其独特的职责。高级编辑负责监督内容生产过程，包括设定编辑标准、指导初级编辑，并确保内容符合公司目标。初级编辑在高级编辑的指导下工作，负责日常编辑工作流程的管理、内容编辑以及内容规划，并处理组织内的各种沟通工作。翻译负责将书面材料从一种语言转换为另一种语言，同时保留原文的语气、风格和上下文。翻译必须对源语言和目标语言都有深刻的理解，并且熟悉他们正在翻译的主题内容。本地化专家不仅进行简单的翻译，还针对特定地区或市场调整内容，包括翻译语言以及调整文化参考、成语和图像，以与当地受众产生共鸣。校对员负责最终检查语法、拼写、标点和格式错误，确保内容在发布前经过打磨并符合高质量标准。

为了增强翻译过程模拟的真实性和有效性，研究者利用大模型生成了30个不同角色的虚拟代理档案，如图3所示。这些档案综合设计了包括性别、国籍、每字费用、教育背景、工作经验和专业领域在内的一系列属性。这种详细且个性化的方法不仅丰富了翻译过程模拟的真实性，也反映了现实世界翻译环境中的复杂性和多样性。

论文介绍了两种协作策略：增减协作和三方协作。在增减协作策略中，两个代理参与其中，一个作为增补代理，负责提取尽可能多的相关信息；另一个作为减法代理，负责审查提取的信息，消除冗余细节，并向增补代理提供反馈。增补代理A首先生成初步响应，尝试包含尽可能多的信息内容。然后，减法代理S审查响应并移除任何冗余信息。对话一直迭代进行，直到不需要进一步修订为止。算法1为“增减协作”策略的步骤说明。

三方协作则将合作分为三个分支：行动、批评和判断。行动代理P根据上下文C和指令I生成响应R。批评代理Q则对响应R提出批评F。行动代理P可以选择接受批评并更新响应，或保持原始响应。在迭代结束时，判断代理J评估响应R，以确定是否可以结束讨论或是否需要进一步的审议。

在执行阶段，过程被分为四个不同的子阶段：翻译、文化适应、校对和最终审查。在前三个子阶段中，方法采用了图2中所示的协作策略。在这个框架内，行动代理P的角色被分配给翻译、本地化专家和校对员。批评代理Q和判断代理J的责任由初级编辑和高级编辑分别承担。最后，高级编辑在出版前进行最终检查。

在翻译、本地化和校对阶段，翻译阶段涉及三个关键角色：翻译、初级编辑和高级编辑。这些角色协作将书籍从源语言翻译成目标语言，逐章进行。翻译过程从翻译（行动代理P）开始，将章节内容从源语言翻译成目标语言。接下来，初级编辑（批评代理Q）对翻译进行彻底审查，确保它遵循指导方针，同时也识别潜在的错误或改进领域。最后，高级编辑（判断代理J）评估翻译，并决定是否需要进一步修订。翻译完成后，开始文化适应过程。本地化专家调整翻译内容以适应目标受众的文化背景，确保其产生良好共鸣并保持预期含义。接下来，校对员执行语言错误检查。在整个文化适应和校对阶段，初级编辑和高级编辑继续提供批评和评估，以进一步完善内容。

在最终审查阶段，高级编辑评估每个章节的翻译质量，并检查相邻章节之间的过渡。高级编辑不仅要验证每个章节本身是否连贯并符合质量标准，还要确保章节之间的过渡平滑，从而保持叙述的连贯性。

在算法2中引入的判断代理负责评估响应的质量，并确定是否需要进一步修订，而不需要对话历史。由于网络小说的特性，每次对话可能包含数千个单词。尽管最近的大模型进步声称能够处理长达数百万标记的极长序列，但观察到代理仍然无法有效地利用上下文中的信息，随着对话的扩展。此外，观察到翻译的含义在几次修订后往往会偏离原文。因此，在三方协作中拥有判断代理是至关重要的，以确保响应的总体质量。

实验

研究者们使用最先进的大模型GPT-4-TURBO作为他们代理的基础，并将其与WMT2023共享任务中的其他系统进行比较，包括：

LLAMA-MT：Du等人在2023年微调LLAMA-7B用于文学翻译的模型。
GPT-4：尽管支持高达128K标记的上下文大小，但每次最多生成4096个标记作为响应的模型。
GOOGLE：逐句翻译文档的GOOGLE翻译系统。
DUT：Zhao等人在2023年探索的用于提升大模型在话语级翻译任务中的性能的技术。
HW-TSC：Xie等人在2023年通过领域适应和话语建模增强话语级能力的Transformer模型。

研究者们没有训练新模型，而是使用了WMT2023 DLLT共享任务的官方测试集。该测试集包含来自20部网络小说的240个连续章节。测试集包含两个参考翻译：由人类翻译者翻译的REFERENCE 1和通过手动对齐网页中的双语文本构建的REFERENCE 2。

由于文学翻译的特殊性，研究者们采用了两种评估方法：

标准评估：使用d-BLEU评估翻译质量，因为翻译可能不会严格按照源文本逐句对齐。d-BLEU分数通过将所有章节翻译合并为一个文档进行评估。
偏好评估：由于文学文本不存在单一、普遍偏好的翻译，研究者们让人类评估者或大模型在不提供参考翻译的情况下选择他们更喜欢的翻译。

在表1中，TRANSAGENTS在d-BLEU指标上表现不佳，得分在比较的方法中是最低的。然而，d-BLEU有其局限性，可能无法完全捕捉生成文本的质量和连贯性。研究者们的结果与Thai等人在2022年的研究一致，他们认为自动指标不能准确反映人类在文学翻译中的偏好。

研究者们提出了两种偏好评估方法：单语人类偏好（MHP）和双语大模型偏好（BLP）。在图4中，用户界面展示了单语人类偏好（MHP）的评估方式，[x]表示人类评估者的选择。研究者们通过SurveyMonkey收集人类对翻译的偏好，确保评估者对中文网络小说感兴趣，并主要从美国招募评估者以最小化潜在的人口统计影响。每对翻译至少由10人评估，每个注释成本为0.30美元。通过多数投票的方式聚合人类评估结果，如果两个翻译系统获得相同数量的票，则最终偏好记录为“无偏好”（Tie）。

鉴于文学文本的复杂性、艺术表达和文化细微差别，产生单一、普遍正确的翻译几乎是不可能的。因此，研究者们使用GPT-4-0125-PREVIEW评估翻译片段对，而不是直接比较两章的质量。他们使用图5中的提示，而不是提供参考翻译。为了评估每个翻译片段对，他们不仅考虑了正向比较，也考虑了反向比较，以避免潜在的偏见。

研究者们在图6和图7中展示了单语人类偏好和双语大模型偏好的评估结果。TRANSAGENTS的翻译在人类评估者和GPT-4-0125-PREVIEW中都更受偏好。表3中展示了这些类别的性能分析结果。

表2展示了TRANSAGENTS在WMT2023 DLLT测试集上每个阶段的d-BLEU结果。结果显示，尽管TRANSAGENTS的代理基于GPT-4-1106-PREVIEW，但其初始翻译的d-BLEU得分显著较低。这表明翻译指南是最终翻译质量的主要贡献者。另外本地化步骤进一步降低了d-BLEU得分，而校对步骤仅对翻译进行了最小的修改。

研究者们探讨了文化适应和内容遗漏方面的两个案例研究，展示了TRANSAGENTS的优势和局限性。如表5所示，TRANSAGENTS是唯一准确反映文化背景的系统。与REFERENCE 1和GPT-4-1106-PREVIEW相比，它们未能正确调整姓名和职称的顺序，因此没有遵循目标语言预期的文化规范。另外TRANSAGENTS能够在整个翻译过程中保持一致性，类似于人类翻译者。

论文链接：https://arxiv.org/pdf/2405.11804