![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器翻译
xiaopihaierletian
这个作者很懒,什么都没留下…
展开
-
机器翻译重要过程(1)---数据预处理
目前有如之前基于统计的开源翻译系统介绍中提到的许多开源统计翻译系统,在由原始平行语料到形成最后的翻译系统的整个过程中,它们有一些相同的处理步骤,从这次的文章开始,陆续介绍几个最重要的过程做法及其意义。 一般在我们得到双语平行语料之后,在构建双语统计翻译系统之前,都会有一个双语数据预处理的过程,为后续例如词对齐处理提供分好词且格式恰当的双语数据。这里以汉英双语数据举例。原创 2017-06-29 14:20:55 · 1780 阅读 · 1 评论 -
机器翻译重要过程(2)---词语对齐
在上一步预处理完成之后,平行句对中的中文部分都被切分成了相应的短语,而英文的大小写、格式、相应的空格也都加上了,在这之后就可以完成词语对齐的过程了。词语对齐的目标是得到中英文词或短语的对齐信息,便于翻译系统做解码时寻找相应的phrase。 词语对齐这一步一般都采用开源工具完成,比如现在用的最多的GIZA++,但是在平行语料数据量大的情况下,可能其完成整个词语对齐的过程耗时较长。现原创 2017-06-29 14:27:36 · 3904 阅读 · 0 评论 -
机器翻译重要过程(3)---抽取短语
上一步通过GIZA++进行词语对齐,我们得到了对应的中英文词对,在此基础上我们就可以进行第三个重要过程了,即抽取短语。短语抽取是短语翻译表构造的第一步,而短语翻译表是翻译系统解码器的要使用到的最重要组件之一,所以抽取短语这一步意义非常大。 示例: 上图展示了从含有词对齐信息的双语平行句对(上方图所示)中抽取的短语对(中下方的“示例短语”所示)。从图转载 2017-06-29 14:28:07 · 783 阅读 · 0 评论 -
机器翻译重要过程(4)---估计概率构造短语翻译表
经过第三步抽取短语后,获得基于短语系统使用的翻译短语对,而接下来的第四步就是短语翻译表概率估计,它的作用是对翻译短语对的正确性进行合理的评估。 在上一节,我们得到了短语对集合,如下图所示: 在这里,我们估计概率主要进行四个分数的计算,即双向短语翻译概率(正向:“源语言->目标语言”方向;反向:“目标语言->源语言”方向 )、双向词汇化权重。首转载 2017-06-29 14:28:32 · 556 阅读 · 0 评论