entity识别

最新推荐文章于 2023-12-27 01:47:15 发布

yiqingyang2012

最新推荐文章于 2023-12-27 01:47:15 发布

阅读量457

点赞数

分类专栏： Machine learning 文章标签： entity

本文链接：https://blog.csdn.net/yiqingyang2012/article/details/52588610

版权

Machine learning 专栏收录该内容

16 篇文章 0 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

该文介绍了一种基于种子集合和语料库的实体识别学习方法。首先使用autoslog抽取名词模式，然后利用模式得分函数选择最佳模式。得分考虑了模式中不同词类的数量。此外，论文引用了斯坦福大学的研究，该研究使用五个特征，包括编辑距离、Ngram、分布相似性等，计算未标记实体属于特定类别的概率。

摘要由CSDN通过智能技术生成

参考论文： A Bootstrapping Method for Learning Semantic Lexicons using
Extraction Pattern Contexts
输入：1，不同种类的种子集合；2，语料库

首先用autoslog从语料库中抽取所有相关的模式，这些模式都只是用来识别名词。启发式的抽取pattern的规则定义入下图
Automatically Generating Extraction Patterns from Untagged Text
然后用这些模式从语料库里抽取所有的名词，将模式以及抽取的名词一起保存在EPdata里面；

具体选则哪个模式是有模式的打分函数来计算的score()：一个模式抽取的词中，词种类越多分数越高（这些词都属于一个类型里的不同词）：
score(patterni)=Ri * log(Fi)
Fi是抽取的词中和种子词相同的数量，Ni是这个模型总共抽取的词种类数；Ri=Fi/Ni.

斯坦福大学的那篇抽取实体的论文，在给模型打分时，会计算这个被打分模型抽取出来的未被标记的实体属于这个类的概率score(e),e代表被抽取的词。打分时用到了五个特征：
1，到positive里词的编辑距离
2，到negtive里词的编辑距离
3，google Ngram(string “abc”,则ngram大于等于1小于等于3的有a,b,c,ab,bc,abc)
4，
5，分布相似性，用词向量来计算两个词的相似性(这里适用了Brown clustering)
这五个特征取一个平均值。