文本对齐

文本对齐问题就是从句子内容出发,讲元语言中的一组句子和目标语言中的一组句子进行对应的过程,每组句子可以为空,也可以额外加入对应源语言中不存在的句子,或者删除原有的句子。两组对应的句子称为句珠;

何谓对齐:任何子句(clause)对应出现,就可以判定句子之间的对齐关系, 最常见的情况是源语言和目标语言中的每个句子之间的对应,称为1:1句子对齐或者句珠

对齐算法

1.基于长度的对齐算法

假设源语言中的和目标语言中的句子成比例,当两种语言属于一个语系时,这种方法相当有效。段落对齐对这个方法很重要,

2.基于信号处理技术的偏移位置对齐算法

基于信号处理的便宜位置对齐算法没有试图对齐句子,而是在在平行文本中利用位置偏移量的概念,即源文本中一定位置的文本和目标语言中一定位置的文本是大致对齐的。

3.句子对齐的词汇方法

1方法的一个显著缺陷是不能有效的处理噪声文本,融入词汇信息,提出健壮性更好的句珠对齐算法

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值