1.数据类型
1.1 结构化数据
1.2 非结构化数据
1.3 非结构文本数据
实体关系三元组
信息抽取任务包括如下基本任务
- 实体识别
1.1 命名实体识别
文本中具有特定意义的实体 三大类(实体、时间、数字) 七小类(人名、地名、机构名、时间、日期、货币、百分比)
1.2 实体抽取
目标是在给定语料的情况下 构建一个实体列表 并不需要在每个句子中确定实体的边界- 实体消歧
消除指定实体的歧义 如苹果 找到特定的实体项
2.1 实体链接
将给定文本中的某一个实体链接到已有知识图谱的某一个实体上 知识图谱中 每个实体有特定编号 就可以实习消歧
2.2 实体聚类
给定一个语料库的前提,通过聚类的方法消除语料中所有同一实体指称项的歧义,具有相同所指的实体被分到同一类别- 关系抽取
获取两个实体之间的语义关系
3.1 关系分类
判别出实体之间的关系
3.2 属性抽取
给定一个实体以及一个预定义关系的条件下,抽取另一个实体
3.3 关系实例抽取
判断实体间关系和抽取满足该关系的知识实例数据
3.4 关系抽取方法
有监督、无监督、弱监督以及开放关系抽取等- 事件抽取
从描述事件信息中抽取出用户感兴趣的事件信息并以结构化的形式呈现出来
1.1 基于模式匹配的事件抽取
1.2 基于机器学习的事件抽取