《机器翻译》阅读笔记-----第一章 绪论

  • 机器翻译的研究和任务处理过程不仅涉及自然语言处理的诸多经典任务,包括数据挖掘、数据清洗、分词、词性标注、句法分析、语义分析等,而且还涉及解码算法、优化算法、建模及训练过程中各种机器学习算法的应用等。
  • 有三项重要的工作极大的推动了统计机器翻译的发展:对数-线性模型、参数最小错误训练方法、BLEU评测指标(2002)。
  • 自动评测指标BLEU的提出不仅避免了人工评价成本昂贵的弊端,而且可以直接成为模型优化的目标,极大地提高了统计翻译系统模型训练、迭代、更新的效率。
  • 统计机器翻译方法的特点是几乎完全依赖对大规模双语语料库的自动学习、自动构造机器翻译系统。
  • Moses系统,常作为学术论文中的基线系统。
  • 2014年前后,深度学习方法称为机器翻译领域继统计机器翻译之后的第二次技术突破。
  • 机器翻译方法主要分为基于规则的机器翻译方法和基于语料的机器翻译方法。
  • 基于语料的机器翻译方法又可以细分为基于实例的机器翻译方法、统计机器翻译方法和神经机器翻译方法。
  • 基于规则的机器翻译方法的一般过程可以分为分析、转换和生成三个阶段就。
  • 基于规则的机器翻译方法的缺点是规则描述颗粒度大,导致句子的翻译结果内容比较僵化、生硬和质量较低。
  • 基于实例的机器翻译方法无需对句子进行复杂的语言分析,可直接利用已有的翻译实例库。缺点是没有提出一个全句的最优化方法或优化数学模型去指导选择实例和找到最优译文。其次,该方法采用句子级的实例匹配,粒度较粗,无法很好的利用短语和上下文信息进行精细匹配,从而不能充分利用翻译实例库扩大实例匹配的句子覆盖范围。
  • 统计机器翻译方法的优点是引入了数学模型,可以对翻译目标进行优化,指导翻译过程中的操作向着有利于产生最优译文的方向进行。
  • 基于语料库的方法利用数据驱动,易于维护和扩展。但是,如果双语语料库资源少或很难获得,则基于语料库的方法会变得无效,而基于规则的方法要好很多。
  • 数据和算法技术是推动机器翻译发展的两个重要方面。
  • 数据的发展目前也存在瓶颈。一方面数据规模增长到一定程度后带来的机器翻译质量收益会趋于平坦,原因是存在大量的同质、同构数据使得模型难以学习到更丰富的翻译知识。而另一方面,不同语言、不同领域的数据规模分布不均匀,使得机器翻译性能无法在所有翻译任务上取得均衡。
  • 数据的均衡性和多样性发展对机器翻译来说仍然非常重要。
  • 展望未来,机器翻译技术的研究可能会从以下几个方面展开:基于各种设备的机器翻译会更加普及;垂直领域的专用机器翻译系统将接近或将取得成功;无监督学习、强化学习、小样本学习等技术将克服数据瓶颈。
  • 句子级的翻译应用包括查询检索输入的翻译和图片光学字符识别(OCR)结果的翻译。
  • 目前,机器翻译系统的翻译对象主要是基于句子级别的。
  • 在翻译篇章的句子时,通常会加入篇章级别的特征信息以提高翻译质量,或者对翻译结果进行编辑后处理以体现篇章信息。
  • 计算机辅助翻译(computer aided translation, CAT)
  • 语音翻译的前段和后端还需要自动语音识别系统和语音合成系统。
  •  语言识别结果又两大特点:通常包含各种语气词、插入语、内容重复、连续修正以及未识别词等各种噪音;文本中没有标点符号,不会有标识特定句型(如陈述句和疑问句等)的符号出现。
  • 去躁任务将语音识别结果中影响阅读理解的噪音去掉。
  • 断句任务需要在语音识别结果中的合适位置插入合理的标点符号。
  • 断句任务也是采用机器学习算法,通过训练、学习一个模型来处理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值