基于HMM和规则相结合的中文地名识别方法

基于机器学习和规则相结合的中文地名识别方法

命名实体识别是自然语言处理中的一个常见任务,方法也越趋于成熟。本人最近正在做事件抽取相关工作,对于事件中地址元素的识别稍有经验,所以写下本文,以对前面工作做一个总结。

1、词库的整理

中国地名毕竟有限,所以我们选择爬取中国统计局2016年统计用区划代码和城乡划分代码中的地名作为基本地名词库,补充到分词器中。分词器选择Hanlp。
这里写图片描述
这里写图片描述
对网页进行整理后,共收录词条大约:995933条
这里写图片描述

2、地名角色标注

地名角色方法参考自博客实战HMM-Viterbi角色标注地名识别,语料选自新华日报1998年1月份数据。
这里写图片描述
分别统计初始概率和转移概率如下:
这里写图片描述
这里写图片描述
统计完成后,输入“在云南省丽江市古城区随意寻找加害目标”,标注结果为:
[ /Z ,在/A ,云南省/S ,丽江市古城区/S ,随意/B ,寻找/Z ,加害/Z ,目标/Z , /Z]

3、地名规则

本文采用的规则依靠人工归纳,分析语料来自于互动百科数据,数据如下:
这里写图片描述
语料有5000条描述地址的句子。
假设字串 sen=wapwb s e n = w a p w b 。其中 wa w a 为地名的前缀词语, wb

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值