机器翻译笔记1

machine translation

machine translation是机器自行进行翻译,不需要人类干预。

课堂中涉及两个名词:FAHQMT(Fully Automatic High Quality Machine Translation), FAMT(Fully Automatic Machine Translation)。

Human Aided Machine Machine Translation

这类是计算机自行进行翻译,直到遇到自行无法解决的时候会像人类询问。人类在这里的角色是辅助类的。

现在使用还比较少,主要还停留在实验室。

Machine Aided Human Translation

人类完成主要的工作,计算机进行辅助操作,如:

  • 电子词典查询,专业术语检查
  • 提供设定的表达方式(?大概是当出现某类词时给出选项)
  • 对相似的句子提供数据库中的翻译结果

TM (Translation memories )

主要功能

Translation memories主要可以获得之前已经翻译过的相似句子的翻译结果。

相似性/距离

首先,明确对字符串的几个操作:

  • 删除
  • 插入
  • 替换
  • 换序

对于距离的计算因此也分为以下几种:

  • 只能插入和删除:LCS distance / Hunt and Szymanski algorithm
  • 插入、删除和替换: Levenshtein distance / Wagner and Fischer algorithm
  • 插入、删除、替换和换序:Damerau-Levenshtein distance / Lowrance and Wagner algorithm

从上面几种的实现来看,现实中换序相当于对两个元素进行了替换,故计入距离不合适。

因此较常使用的是 可以插入、删除和替换时的距离Levenshtein distance,该距离又被称为编辑距离(Edit Distance)。具体可以定义为两个字串之间,由一个转成另一个所需的最少编辑操作次数。

关于最短编辑距离的推导,具体可参考:字符串相似度之美(一)

简单而言,因为最短编辑距离的子节点一定也是最优的,因此这里可以使用动态规划来完成最短编辑距离的寻找。
引自上述文章
分情况讨论:

  • i i i j j j 存在一个为0时,说明 [ : m i n ( i , j ) ] [ :min(i,j)] [:min(i,j)]区间的字符是相等的,则需要编辑的最少字符是 m a x ( i , j ) max(i,j) max(i,j)所属字符串的 [ m i n ( i , j ) : m a x ( i , j ) ] [min(i,j):max(i,j)] [min(i,j):max(i,j)]区间内字符,故最短距离为 m a x ( i , j ) max(i,j) max(i,j)
  • i i i j j j 不存在为0时,则要求最短距离则要看其子结构中的最小值,其子结构分别替换 a [ i ] a[i] a[i]、替换 b [ j ] b[j] b[j]或者都替换。

其实存在为0时也可以归于 m i n ( . . . ) min(...) min(...)中,只要排除出现负值的可能。

具体可以有:
在这里插入图片描述
在面对多条数据时上述做法效率会很低,所以字符串相似度之美(一)解释了多条算法时用于提升效率的BK树和非确定有限状态的最短编辑距离自动机(Levenshtein Automata),及NFA(Nondeterministic Finite Automata)。

TM的格式

TM使用的是TMX格式,这是一种开放的XML标准,用于交换由计算机辅助翻译(CAT)和本地化应用程序创建的翻译记忆库(TM)数据; 可能会保存已从一种语言翻译成另一种语言的单词或短语; 用于在不同工具和供应商之间转移翻译记忆库。(来源:https://m33.wiki/extension/tmx.html )

<tu>
	<tuv xml:lang="en"><seg>To be or not to be?</seg></tuv>
	<tuv xml:lang="fr"><seg>Être ou ne pas être?</seg></tuv>
</tu>
<tu>
	<tuv xml:lang="en"><seg>That is the question.</seg></tuv>
	<tuv xml:lang="pl"><seg>To jest pytanie.</seg></tuv>
	<tuv xml:lang="ja"><seg>これは問題です。</seg></tuv>
</tu>

这里关于语言的名称遵循 ISO 639。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值