【命名实体识别】HMM-Viterbi角色标注中国人名识别

最新推荐文章于 2024-08-02 23:26:24 发布

zkq_1986

最新推荐文章于 2024-08-02 23:26:24 发布

阅读量2.7k

点赞数 3

分类专栏： NLP

NLP 专栏收录该内容

80 篇文章 11 订阅

订阅专栏

实战HMM-Viterbi角色标注中国人名识别

这几天写完了人名识别模块，与分词放到一起形成了两层隐马模型。虽然在算法或模型上没有什么新意，但是胜在训练语料比较新，对质量把关比较严，实测效果很满意。比如这句真实的新闻“签约仪式前，秦光荣、李纪恒、仇和等一同会见了参加签约的企业家。”，分词结果：[签约/v, 仪式/n, 前/f, ，/w, 秦光荣/nr, 、/w, 李纪恒/nr, 、/w, 仇和/nr, 等/u, 一同/d, 会见/v, 了/ul, 参加/v, 签约/v, 的/uj, 企业家/n, 。/w]，三个人名“秦光荣”“李纪恒”“仇和”一个不漏。一些比较变态的例子也能从容应对，比如下面：

原始句子	HanLP	ansj分词
签约仪式前，秦光荣、李纪恒、仇和等一同会见了参加签约的企业家。	[签约/v, 仪式/n, 前/f, ，/w, 秦光荣/nr, 、/w, 李纪恒/nr, 、/w, 仇和/nr, 等/u, 一同/d, 会见/v, 了/ul, 参加/v, 签约/v, 的/uj, 企业家/n, 。/w]	[签约/v, 仪式/n, 前/f, ，/w, 秦/nr, 光荣/a, 、/w, 李纪恒/nr, 、/w, 仇/nr, 和/c, 等/u, 一同/d, 会见/v, 了/ul, 参加/v, 签约/v, 的/uj, 企业家/n, 。/w]
王国强、高峰、汪洋、张朝阳、韩寒、小四	[王国强/nr, 、/w, 高峰/n, 、/w, 汪洋/n, 、/w, 张朝阳/nr, 、/w, 韩寒/nr, 、/w, 小/a, 四/m]	[王国/n, 强/a, 、/w, 高峰/n, 、/w, 汪洋/n, 、/w, 张/q, 朝阳/ns, 、/w, 韩寒/nr, 、/w, 小/a, 四/m]
张浩和胡健康复员了	[张浩/nr, 和/c, 胡健康/nr, 复员/vn, 了/ul]	[张浩/nr, 和/c, 胡/nr, 健康/a, 复员/vn, 了/ul]
王总和小丽结婚了	[王总/nr, 和/c, 小丽/nr, 结婚/v, 了/ul]	[王/nr, 总和/n, 小丽/nr, 结婚/v, 了/ul]
编剧邵钧林和稽道青说	[编剧/n, 邵钧林/nr, 和/c, 稽道青/nr, 说/v]	[编剧/n, 邵钧林/nr, 和/c, 稽/nr, 道青/nr, 说/v]
这里有关天培的壮烈	[这里/r, 有/v, 关天培/nr, 的/uj, 壮烈/a]	[这里/r, 有关/vn, 天培/nr, 的/uj, 壮烈/a]
龚学平等领导,邓颖超生前	[龚学平/nr, 等/u, 领导/n, ,/w, 邓颖超/nr, 生前/t]	[龚学平/nr, 等/nw, 领导/n, ,, 邓颖超/nr, 生前/t]

这是我将自己的分词与ansj作比较得出的结果，由于自己可以随时调整算法，所以主场占了很大便宜。但是第一句绝对没有放水，说实话能识别出“仇和”这么冷僻的名字着实让我惊喜了一下。

开源项目

本文代码已集成到HanLP中开源：http://www.hankcs.com/nlp/hanlp.html

原理

推荐仔细阅读《基于角色标注的中国人名自动识别研究》这篇论文，该论文详细地描述了算法原理和实现。从语料库的整理、标注到最后的模式匹配都讲得清清楚楚。我在这篇论文的基础上做了改进，主要步骤我总结如下：

1、对语料库自动标注，将原来的标注转化为角色标注。角色标注一共有如下几种：

编码	代码	意义	例子
B	Pf	姓氏	张华平先生
C	Pm	双名的首字	张华平先生
D	Pt	双名的末字	张华平先生
E	Ps	单名	张浩说：“我是一个好人”
F	Ppf	前缀	老刘、小李
G	Plf	后缀	王总、刘老、肖氏、吴妈、叶帅
K	Pp	人名的上文	又来到于洪洋的家。
L	Pn	人名的下文	新华社记者黄文摄
M	Ppn	两个中国人名之间的成分	编剧邵钧林和稽道青说
U	Ppf	人名的上文和姓成词	这里有关天培的壮烈
V	Pnw	人名的末字和下文成词	龚学平等领导, 邓颖超生前
X	Pfm	姓与双名的首字成词	王国维、
Y	Pfs	姓与单名成词	高峰、汪洋
Z	Pmt	双名本身成词	张朝阳
A	Po	以上之外其他的角色