实体识别理论

1.实体识别问题探究:


摘要:融合词典和统计学习的方法,对原新闻数据进行分词、词性标注,提高准确率,最终实现实体识别。


1.对数据进行分词:
使用4tag 标签数据 B(词头)、M(词中)、E(词尾)S(非实体部分)。
根据训练好的数据,训练出模型,模型自动识别词位置进行分词。
(新思路:使用旧数据训练出的模型,对新闻数据进行分词;
手动修改分词错误的标签,整合修改好的数据当做训练数据,再训练模型,继续对新的数据分词,循环往复,达到好的效果。)
2.对数据进行词性标注:
基于统计学习的方法(CRF),对分词进行词性标注。(相应的会训练出模型,进行词性标注。)

2.包括实体

链接、 实体消岐、 实体冲突等不同程度的解决。
一般而言,当提取的规则能比较精确地反映语言现象时,基于规则的方法性能要优于基于统计的方法。
哈工大语言云(LTP)
NLTK进行分词
NLPIR
[中央/n 电视台/n]nt,为了处理方便,只考虑最细粒度的分词结果,即当作是 中央/n 电视台/n 两个词进行处理。
为了得到适合拿来训练的数据集(4-tag标记),用到一个python脚本--make_crf_train_data.py:
词首,常用B表示
词中,常用M表示
词尾,常用E表示
单子词,常用S表示


例如  [华南/ns 地区/n]ns  标为地名实体,但是 东北/f 地区/n 确分开标注


实体类型多样化。己经从人名、地名、组织机构名等一般性实体 , 扩展到了电影名、
图书名、音乐名等出版物类实体 , 品牌名、产品名、产品型号等商品类实体 , 而这
些新的实体类型大都缺少标准的训练数据。


歧义现象。部分命名实体词在不同的上下文环境中可以指称不同的实体。 
比如,“高峰”不仅可以代表一个旅游景点,同样可以是一个普通词。


不同实体内部特征不同。不可能用一个统一的模型来刻画所有的命名实体内部特征。


HanLP 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值