文本对齐问题就是从句子内容出发,讲元语言中的一组句子和目标语言中的一组句子进行对应的过程,每组句子可以为空,也可以额外加入对应源语言中不存在的句子,或者删除原有的句子。两组对应的句子称为句珠;
何谓对齐:任何子句(clause)对应出现,就可以判定句子之间的对齐关系, 最常见的情况是源语言和目标语言中的每个句子之间的对应,称为1:1句子对齐或者句珠
对齐算法
1.基于长度的对齐算法
假设源语言中的和目标语言中的句子成比例,当两种语言属于一个语系时,这种方法相当有效。段落对齐对这个方法很重要,
2.基于信号处理技术的偏移位置对齐算法
基于信号处理的便宜位置对齐算法没有试图对齐句子,而是在在平行文本中利用位置偏移量的概念,即源文本中一定位置的文本和目标语言中一定位置的文本是大致对齐的。
3.句子对齐的词汇方法
1方法的一个显著缺陷是不能有效的处理噪声文本,融入词汇信息,提出健壮性更好的句珠对齐算法