NLP 2.5信息抽取 Information extraction

信息抽取介绍 Information Extraction1、信息抽取概要 (IE)Extraction information from unstructured text(非结构化数据)图片文本video音频抽取实体(entities):人,地名,时间医疗领域:蛋白质,疾病,药物抽取关系(relations)位于 located in工作在 work at部分 is part of先做实体抽取,再做关系抽取2、信息抽取应用场景2.1 一个例子1、NER
摘要由CSDN通过智能技术生成

文章目录

信息抽取介绍 Information Extraction

1、信息抽取概要 (IE)

Extraction information from unstructured text(非结构化数据)

  • 图片
  • 文本
  • video
  • 音频

抽取实体(entities):

  • 人,地名,时间
  • 医疗领域:蛋白质,疾病,药物

抽取关系(relations)

  • 位于 located in
  • 工作在 work at
  • 部分 is part of

先做实体抽取,再做关系抽取

2、信息抽取应用场景

2.1 一个例子

  • 1、NER: 标记所有的实体和每个实体的类别
  • 2、**关系抽取分析:**找到实体间的关系
  • 3、指代消解,每个代词指代的是哪个名词。

在这里插入图片描述

2.2 More application

  • 知识库的搭建
  • Google scholar
  • 购物引擎,产品搜索
  • 正确分析
  • 问答案系统

2.3 Search Engine vs Question Answering

  • Question Answering:用户输入问题,系统直接给定answer
  • Search Engine:用户需要自己筛选

问答系统的等级

  • level 1: 返回文档
  • level 2:返回关键句子
  • level 3:返回key phrase
  • level 4: 返回答案

3、命名实体识别介绍

3.1 概念

命名实体识别,简称NER,又称作专名识别,是指识别文本中具有特定意义的实体,主要包括任命,地名,机构名,专有名词等。

3.2 Case 1: Chat bot

在这里插入图片描述

先做意图识别:文本分类
第一次抽取实体:北京,伤害
第二次抽取实体:11月16日

3.3 Case 2:Extract from news

在这里插入图片描述
在这里插入图片描述

4、搭建命名实体识别 NER分类器

  • 定义实体种类
  • 准备训练数据
  • 训练NER

在这里插入图片描述
给定word, 词性和实体类别,O为不需要关注的单词,多个单词构成一个实体类别。

4.1 评估 NER Recognizer

  • 精确率和召回率
  • F1-score

4.2 Methods

4.2. 1 rule-based approach 利用规则

在这里插入图片描述

4.2.2 Majority voting approach 投票表决

在这里插入图片描述
选择概率最大的实体类型

4.2.3 基于监督学习的方法

  • 1、非时序模型,逻辑回归,svm
  • 2、时序模型:HMM,CRF, LSTM-CRF

针对一个单词,使用特征工程,提取特征,得到feature vector,输入到模型得到分类结果。

比如,应用随机森林进行分类,将一个单词是否是标题,是否有大写,它的词长度等作为feature,输入到模型进行训练,得到分类结果。这种特征提取没有考虑上下文信息。

5、文本的特征工程

对于一个句子的特征提取: The professor Colin proposed a model for NER in 1999
1、Bag-of-word features

  • 当前词:Colin:
  • 前后词:professor,proposed
  • 前前,后后词:the, model
  • Bi-gram: Professor Colin,Colin proposed,the professor, proposed model

2、词性的feature

  • 当前词词性:名词
  • 前后词词性:名词,动词
  • 前前后后词性:冠词,名词

3、前缀后缀

  • 当前词:Co,in
  • 前后词:pr,or;pro, ed

4、当前词的特性

  • 词长
  • 包含有多少个大写字母
  • 是否大写开头
  • 是否包含“-”
  • 是否包含数字

5、 stemming
对单词做stemming后重复上面四个操作

6、特征编码 Feature Encoding

对于当前词的词性:Loc,需要把这个词性转变为one-hot encoding,但会使特征的维度变大很多很多。

常见的特征种类:

1、类别型的特征,使用one-h

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值