一种基于词性序列的人名识别方法

在人名识别:[我, 爱, 杨, 尚, 川] 中,爱、杨、尚都是姓,会有多个识别结果,那么我们如何消歧并选择一个最合理的结果呢?

下面看看人名识别:[我, 爱, 杨, 尚, 川] 的计算机分析过程,此过程的分析程序出自Java分布式中文分词组件 - word分词

人名识别:[我, 爱, 杨, 尚, 川]

识别到人名:爱杨尚
识别到人名:杨尚川
识别到人名:尚川

开始从多个识别结果中选择一个最佳的结果:[[我, 爱杨尚/nr, 川], [我, 爱, 杨尚川/nr], [我, 爱, 杨, 尚川/nr]]

1、开始处理:[我, 爱杨尚/nr, 川]
忽略已经标注过的词:爱杨尚/nr
词序列:[我/r, 爱杨尚/nr, 川/l] 的词性序列:r n l 
长度的负值也作为分值:-3
评分结果:-3

2、开始处理:[我, 爱, 杨尚川/nr]
忽略已经标注过的词:杨尚川/nr
词序列:[我/r, 爱/v, 杨尚川/nr] 的词性序列:r v n 
v n词序增加分值:1
长度的负值也作为分值:-3
评分结果:-2

3、开始处理:[我/r, 爱/v, 杨, 尚川/nr]
忽略已经标注过的词:爱/v
忽略已经标注过的词:我/r
忽略已经标注过的词:尚川/nr
词序列:[我/r, 爱/v, 杨/nr, 尚川/nr] 的词性序列:r v n n 
v n词序增加分值:1
长度的负值也作为分值:-4
评分结果:-3

选择结果:[我/r, 爱/v, 杨尚川/nr]

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值