NLP 2.5信息抽取 Information extraction

最新推荐文章于 2024-05-05 20:50:36 发布

weixin_51182518

最新推荐文章于 2024-05-05 20:50:36 发布

阅读量1.2k

点赞数 1

文章标签：机器学习自然语言处理 python 深度学习

本文链接：https://blog.csdn.net/weixin_51182518/article/details/113814590

版权

信息抽取介绍 Information Extraction1、信息抽取概要 (IE)Extraction information from unstructured text（非结构化数据）图片文本video音频抽取实体(entities):人，地名，时间医疗领域：蛋白质，疾病，药物抽取关系（relations）位于 located in工作在 work at部分 is part of先做实体抽取，再做关系抽取2、信息抽取应用场景2.1 一个例子1、NER

摘要由CSDN通过智能技术生成

文章目录

信息抽取介绍 Information Extraction
1、信息抽取概要 (IE)
- 抽取实体(entities):
- 抽取关系（relations）
2、信息抽取应用场景
- 2.1 一个例子
- 2.2 More application
- 2.3 Search Engine vs Question Answering
- - 问答系统的等级
3、命名实体识别介绍
- 3.1 概念
- 3.2 Case 1: Chat bot
- 3.3 Case 2：Extract from news
4、搭建命名实体识别 NER分类器
- 4.1 评估 NER Recognizer
- 4.2 Methods
5、文本的特征工程
6、特征编码 Feature Encoding
- 常见的特征种类：
7、关系抽取介绍
- 7.1信息抽取任务：
- 7.2 Automatic Content Extraction(ACE)
- Ontological Relation(本体关系)
- 7.3 关系抽取方法介绍
8、基于规则的方法
- 8.1 举例 “is-a”
- 8.2 Benefits and Drawbacks
9、基于监督学习方法
- 9.1 特征工程
- 9.2 Classification Model
10、Bootstrap 方法
- 10.1 Bootstrap
- 10.2 Snow ball
- 10.3 snowball 总结
11、Distant-supervision方法
12、无监督学习
13、实体消歧 Entity Disambiguiation
- 13.1 介绍
- 13.2 实体消歧算法
14、实体统一 Entity Resolution
- 14.1 实体统一算法
15、指代消解
- 15.1 举例
- 15.2 收集数据
16、句法分析 —— Parsing
- 16.1 介绍
- 16.2 语法树
- 16.2 Parsing for Feature Extraction
- 16.3 语法
- 16.4 From CFG(context free grammars) to PCFG (probablistic context free grammars)
- 16.5 评估语法树
- 16.6 寻找最好的数
17、CKY 算法
- 17.1 CKY 算法核心思想
- 17.2 Transforming to CNF(chosmsky normal form)
- 17.3 CKY算法

信息抽取介绍 Information Extraction

1、信息抽取概要 (IE)

Extraction information from unstructured text（非结构化数据）

图片
文本
video
音频

抽取实体(entities):

人，地名，时间
医疗领域：蛋白质，疾病，药物

抽取关系（relations）

位于 located in
工作在 work at
部分 is part of

先做实体抽取，再做关系抽取

2、信息抽取应用场景

2.1 一个例子

1、NER: 标记所有的实体和每个实体的类别
2、**关系抽取分析：**找到实体间的关系
3、指代消解，每个代词指代的是哪个名词。

在这里插入图片描述

2.2 More application

知识库的搭建
Google scholar
购物引擎，产品搜索
正确分析
问答案系统

2.3 Search Engine vs Question Answering

Question Answering：用户输入问题，系统直接给定answer
Search Engine：用户需要自己筛选

问答系统的等级

level 1: 返回文档
level 2：返回关键句子
level 3：返回key phrase
level 4: 返回答案

3、命名实体识别介绍

3.1 概念

命名实体识别，简称NER，又称作专名识别，是指识别文本中具有特定意义的实体，主要包括任命，地名，机构名，专有名词等。

3.2 Case 1: Chat bot

在这里插入图片描述

先做意图识别：文本分类
第一次抽取实体：北京，伤害
第二次抽取实体：11月16日

3.3 Case 2：Extract from news

在这里插入图片描述

4、搭建命名实体识别 NER分类器

定义实体种类
准备训练数据
训练NER

在这里插入图片描述
给定word，词性和实体类别，O为不需要关注的单词，多个单词构成一个实体类别。

4.1 评估 NER Recognizer

精确率和召回率
F1-score

4.2 Methods

4.2. 1 rule-based approach 利用规则

在这里插入图片描述

4.2.2 Majority voting approach 投票表决

在这里插入图片描述
选择概率最大的实体类型

4.2.3 基于监督学习的方法

1、非时序模型，逻辑回归，svm
2、时序模型：HMM,CRF, LSTM-CRF

针对一个单词，使用特征工程，提取特征，得到feature vector，输入到模型得到分类结果。

比如，应用随机森林进行分类，将一个单词是否是标题，是否有大写，它的词长度等作为feature，输入到模型进行训练，得到分类结果。这种特征提取没有考虑上下文信息。

5、文本的特征工程

对于一个句子的特征提取： The professor Colin proposed a model for NER in 1999
1、Bag-of-word features

当前词：Colin：
前后词：professor,proposed
前前，后后词：the, model
Bi-gram: Professor Colin，Colin proposed，the professor， proposed model

2、词性的feature

当前词词性：名词
前后词词性：名词，动词
前前后后词性：冠词，名词

3、前缀后缀

当前词：Co，in
前后词：pr,or;pro, ed

4、当前词的特性

词长
包含有多少个大写字母
是否大写开头
是否包含“-”
是否包含数字

5、 stemming
对单词做stemming后重复上面四个操作

6、特征编码 Feature Encoding

对于当前词的词性：Loc，需要把这个词性转变为one-hot encoding，但会使特征的维度变大很多很多。

常见的特征种类：

1、类别型的特征，使用one-h

最低0.47元/天解锁文章

weixin_51182518

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
NLP 2.5信息抽取 Information extraction

信息抽取介绍 Information Extraction1、信息抽取概要 (IE)Extraction information from unstructured text（非结构化数据）图片文本video音频抽取实体(entities):人，地名，时间医疗领域：蛋白质，疾病，药物抽取关系（relations）位于 located in工作在 work at部分 is part of先做实体抽取，再做关系抽取2、信息抽取应用场景2.1 一个例子1、NER
复制链接

扫一扫