实体识别理论

逍遥_yjz

已于 2024-04-21 17:59:49 修改

阅读量30

点赞数

分类专栏：自然语言处理文章标签： python 实体识别

于 2018-01-19 17:01:06 首次发布

本文链接：https://blog.csdn.net/xiaoyaozizai017/article/details/78162690

版权

自然语言处理专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1.实体识别问题探究：

摘要：融合词典和统计学习的方法，对原新闻数据进行分词、词性标注，提高准确率，最终实现实体识别。

1.对数据进行分词：
使用4tag 标签数据 B（词头）、M（词中）、E（词尾）S（非实体部分）。
根据训练好的数据，训练出模型，模型自动识别词位置进行分词。
（新思路：使用旧数据训练出的模型，对新闻数据进行分词；
手动修改分词错误的标签，整合修改好的数据当做训练数据，再训练模型，继续对新的数据分词，循环往复，达到好的效果。）
2.对数据进行词性标注：
基于统计学习的方法（CRF），对分词进行词性标注。（相应的会训练出模型，进行词性标注。）

2.包括实体

链接、实体消岐、实体冲突等不同程度的解决。
一般而言，当提取的规则能比较精确地反映语言现象时，基于规则的方法性能要优于基于统计的方法。
哈工大语言云（LTP）
NLTK进行分词
NLPIR
[中央/n 电视台/n]nt，为了处理方便，只考虑最细粒度的分词结果，即当作是中央/n 电视台/n 两个词进行处理。
为了得到适合拿来训练的数据集（4-tag标记），用到一个python脚本--make_crf_train_data.py：
词首，常用B表示
词中，常用M表示
词尾，常用E表示
单子词，常用S表示

例如 [华南/ns 地区/n]ns 标为地名实体，但是东北/f 地区/n 确分开标注

实体类型多样化。己经从人名、地名、组织机构名等一般性实体 , 扩展到了电影名、
图书名、音乐名等出版物类实体 , 品牌名、产品名、产品型号等商品类实体 , 而这
些新的实体类型大都缺少标准的训练数据。

歧义现象。部分命名实体词在不同的上下文环境中可以指称不同的实体。
比如，“高峰”不仅可以代表一个旅游景点，同样可以是一个普通词。

不同实体内部特征不同。不可能用一个统一的模型来刻画所有的命名实体内部特征。

HanLP

逍遥_yjz

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
实体识别理论

1.实体识别问题探究：摘要：融合词典和统计学习的方法，对原新闻数据进行分词、词性标注，提高准确率，最终实现实体识别。1.对数据进行分词：使用4tag 标签数据 B（词头）、M（词中）、E（词尾）S（非实体部分）。根据训练好的数据，训练出模型，模型自动识别词位置进行分词。（新思路：使用旧数据训练出的模型，对新闻数据进行分词；手动修改分词错误的标签，整合修改好的数据当做训练数据，再训练模型，继续对新的
复制链接

扫一扫