一种基于词性序列的人名识别方法

最新推荐文章于 2024-11-07 10:35:45 发布

sdfjlkjsdfsaldfsdf

最新推荐文章于 2024-11-07 10:35:45 发布

阅读量321

点赞数

分类专栏： word分词文章标签： word 中文分词人名识别词性序列

word分词专栏收录该内容

19 篇文章 0 订阅

订阅专栏

在人名识别：[我, 爱, 杨, 尚, 川] 中，爱、杨、尚都是姓，会有多个识别结果，那么我们如何消歧并选择一个最合理的结果呢？

下面看看人名识别：[我, 爱, 杨, 尚, 川] 的计算机分析过程，此过程的分析程序出自Java分布式中文分词组件 - word分词：

人名识别：[我, 爱, 杨, 尚, 川]

识别到人名：爱杨尚
识别到人名：杨尚川
识别到人名：尚川

开始从多个识别结果中选择一个最佳的结果:[[我, 爱杨尚/nr, 川], [我, 爱, 杨尚川/nr], [我, 爱, 杨, 尚川/nr]]

1、开始处理：[我, 爱杨尚/nr, 川]
忽略已经标注过的词：爱杨尚/nr
词序列：[我/r, 爱杨尚/nr, 川/l] 的词性序列：r n l 
长度的负值也作为分值：-3
评分结果：-3

2、开始处理：[我, 爱, 杨尚川/nr]
忽略已经标注过的词：杨尚川/nr
词序列：[我/r, 爱/v, 杨尚川/nr] 的词性序列：r v n 
v n词序增加分值：1
长度的负值也作为分值：-3
评分结果：-2

3、开始处理：[我/r, 爱/v, 杨, 尚川/nr]
忽略已经标注过的词：爱/v
忽略已经标注过的词：我/r
忽略已经标注过的词：尚川/nr
词序列：[我/r, 爱/v, 杨/nr, 尚川/nr] 的词性序列：r v n n 
v n词序增加分值：1
长度的负值也作为分值：-4
评分结果：-3

选择结果：[我/r, 爱/v, 杨尚川/nr]