文章目录
信息抽取介绍 Information Extraction
1、信息抽取概要 (IE)
Extraction information from unstructured text(非结构化数据)
- 图片
- 文本
- video
- 音频
抽取实体(entities):
- 人,地名,时间
- 医疗领域:蛋白质,疾病,药物
抽取关系(relations)
- 位于 located in
- 工作在 work at
- 部分 is part of
先做实体抽取,再做关系抽取
2、信息抽取应用场景
2.1 一个例子
- 1、NER: 标记所有的实体和每个实体的类别
- 2、**关系抽取分析:**找到实体间的关系
- 3、指代消解,每个代词指代的是哪个名词。
2.2 More application
- 知识库的搭建
- Google scholar
- 购物引擎,产品搜索
- 正确分析
- 问答案系统
2.3 Search Engine vs Question Answering
- Question Answering:用户输入问题,系统直接给定answer
- Search Engine:用户需要自己筛选
问答系统的等级
- level 1: 返回文档
- level 2:返回关键句子
- level 3:返回key phrase
- level 4: 返回答案
3、命名实体识别介绍
3.1 概念
命名实体识别,简称NER,又称作专名识别,是指识别文本中具有特定意义的实体,主要包括任命,地名,机构名,专有名词等。
3.2 Case 1: Chat bot
先做意图识别:文本分类
第一次抽取实体:北京,伤害
第二次抽取实体:11月16日
3.3 Case 2:Extract from news
4、搭建命名实体识别 NER分类器
- 定义实体种类
- 准备训练数据
- 训练NER
给定word, 词性和实体类别,O为不需要关注的单词,多个单词构成一个实体类别。
4.1 评估 NER Recognizer
- 精确率和召回率
- F1-score
4.2 Methods
4.2. 1 rule-based approach 利用规则
4.2.2 Majority voting approach 投票表决
选择概率最大的实体类型
4.2.3 基于监督学习的方法
- 1、非时序模型,逻辑回归,svm
- 2、时序模型:HMM,CRF, LSTM-CRF
针对一个单词,使用特征工程,提取特征,得到feature vector,输入到模型得到分类结果。
比如,应用随机森林进行分类,将一个单词是否是标题,是否有大写,它的词长度等作为feature,输入到模型进行训练,得到分类结果。这种特征提取没有考虑上下文信息。
5、文本的特征工程
对于一个句子的特征提取: The professor Colin proposed a model for NER in 1999
1、Bag-of-word features
- 当前词:Colin:
- 前后词:professor,proposed
- 前前,后后词:the, model
- Bi-gram: Professor Colin,Colin proposed,the professor, proposed model
2、词性的feature
- 当前词词性:名词
- 前后词词性:名词,动词
- 前前后后词性:冠词,名词
3、前缀后缀
- 当前词:Co,in
- 前后词:pr,or;pro, ed
4、当前词的特性
- 词长
- 包含有多少个大写字母
- 是否大写开头
- 是否包含“-”
- 是否包含数字
5、 stemming
对单词做stemming后重复上面四个操作
6、特征编码 Feature Encoding
对于当前词的词性:Loc,需要把这个词性转变为one-hot encoding,但会使特征的维度变大很多很多。
常见的特征种类:
1、类别型的特征,使用one-h