笔记-1999-消解中文三字长交集型分词歧义的算法

消解中文三字长交集型分词歧义的算法
出处:清华大学学报(自然科学版)1999年第5期
单位:清华大学
作者:孙茂松
三字,交搭歧义,词性,词概率,组合概率,分类词表概率主要内容:

根据对一个1亿字汉语语料库的观察, 三字长交集型分词歧义就静态个数而言占全部交集型分词歧义的33.29%, 动态覆盖率更占全部交集型分词歧义的49.76%。
1 词概率+ 词性Bigram法,
 对S3z=ABC, 其切分取作
AB/ C, 如果f ( AB, C) - f ( A, BC) > t0;
A/ BC, 如果f ( AB, C) - f ( A, BC) < - t0;
未定, 如果ûf ( AB, C) - f ( A, BC) û≤t0.
2设定六个字表
对S3z= ABC, 根据分词语料库对{S03z}的人工切分结果, 可搜集到6个关于首字A、中字B、尾字C的字表: 
字表L1 为切分为单字词频率很高的首字A 的集合, 
字表L2 为切分为单字词频率很低的首字A 的集合, 
字表L3 为与首字A 结合成词频率很高的中字B的集合, 
字表L4 为与尾字C结合成词频率很高的中字B的集合, 
字表L5 为切分为单字词频率很高的尾字C的集合, 
字表L6 为切分为单字词频率很低的尾字C的集合
设L是上述任一汉字表, Z是任意汉字, 令
RL ( Z) = 0,  Z∈/ L;或 1,  Z∈L.
k1 = RL1( A) + RL4( B) + RL6( C) ,
k2 = RL2( A) + RL3( B) + RL5( C) .
则常用字分合法可描述为对S3z= ABC, 其切分取作
A/ BC, 如果k1 > k2;
AB/ C, 如果k1 < k2;
未定, 其它


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值