1.实体识别问题探究:
摘要:融合词典和统计学习的方法,对原新闻数据进行分词、词性标注,提高准确率,最终实现实体识别。
1.对数据进行分词:
使用4tag 标签数据 B(词头)、M(词中)、E(词尾)S(非实体部分)。
根据训练好的数据,训练出模型,模型自动识别词位置进行分词。
(新思路:使用旧数据训练出的模型,对新闻数据进行分词;
手动修改分词错误的标签,整合修改好的数据当做训练数据,再训练模型,继续对新的数据分词,循环往复,达到好的效果。)
2.对数据进行词性标注:
基于统计学习的方法(CRF),对分词进行词性标注。(相应的会训练出模型,进行词性标注。)
2.包括实体
链接、 实体消岐、 实体冲突等不同程度的解决。
一般而言,当提取的规则能比较精确地反映语言现象时,基于规则的方法性能要优于基于统计的方法。
哈工大语言云(LTP)
NLTK进行分词
NLPIR
[中央/n 电视台/n]nt,为了处理方便,只考虑最细粒度的分词结果,即当作是 中央/n 电视台/n 两个词进行处理。
为了得到适合拿来训练的数据集(4-tag标记),用到一个python脚本--make_crf_train_data.py:
词首,常用B表示
词中,常用M表示
词尾,常用E表示
单子词,常用S表示
例如 [华南/ns 地区/n]ns 标为地名实体,但是 东北/f 地区/n 确分开标注
实体类型多样化。己经从人名、地名、组织机构名等一般性实体 , 扩展到了电影名、
图书名、音乐名等出版物类实体 , 品牌名、产品名、产品型号等商品类实体 , 而这
些新的实体类型大都缺少标准的训练数据。
歧义现象。部分命名实体词在不同的上下文环境中可以指称不同的实体。
比如,“高峰”不仅可以代表一个旅游景点,同样可以是一个普通词。
不同实体内部特征不同。不可能用一个统一的模型来刻画所有的命名实体内部特征。
HanLP