信息提取 Information Extraction

爱格白

已于 2023-01-26 03:45:21 修改

阅读量1.5k

点赞数

分类专栏：学习笔记文章标签：人工智能信息提取自然语言处理

于 2022-12-20 07:46:07 首次发布

本文链接：https://blog.csdn.net/zj71hmvx/article/details/128368114

版权

定义

信息提取任务是从一组非结构化自然语言文本中的每个文本中识别有关实体、关系或事件的预定义类的信息，并通过以下任一方式以结构化形式记录此信息：
• 注释源文本，使用 XML 标签
• 填写与文本分开的数据结构，例如模板或数据库记录或对峙注释stand-off annotation
例如：从金融新闻专线报道中识别那些处理管理继任事件的人，并从中提取组织和个人的详细信息，担任或撤职等

然后将生成的结构化数据源用于其他目的：
• 使用常规数据库查询进行搜索或分析
• 数据挖掘;生成摘要（可能用另一种语言）
• 在源文本中/内部/之间构建索引

信息检索 Information Retrieval

信息检索是：给定：文档集合和用户查询返回：与用户查询相关的（排序的）文档列表
他的优势：
• 可以非常快速地搜索大量文档集合
• 对文本的类型和领域不敏感实施起来相对简单
• 挑战缩放到巨大的动态文档集合，例如Web
他的弱点
• 返回的文档不是信息/答案，因此
• 用户必须进一步阅读文本以提取信息
• 输出是非结构化的，因此直接数据挖掘/进一步处理的可能性有限经常不够区分

对比信息提取和信息检索

信息提取是给定：文档集合和一组预定义的实体、关系和/或事件返回：指定实体、关系和/或事件的所有提及的结构化表示
优势：
• 从文本中提取事实，而不仅仅是从文本中提取文本集合
• 可以为其他强大的应用程序（数据库、语义索引引擎、数据挖掘工具）提供支持
弱点
• 系统往往是特定于流派/领域的，移植到新的流派和领域可能很耗时/需要专业知识
• 准确性有限
• 计算要求高，因此存在性能问题在非常大的集合上

Entity Extraction 实体提取

IE 系统处理的实体类型包括：
Named individuals • 组织、人员、地点、书籍、电影、船舶、餐馆。
Named Kinds • 蛋白质、化合物/药物、疾病、飞机部件。
Times • 时间表达日期、一天中的时间
Measures • 货币表达、距离/大小、重量。

指代同一现实世界实体的不同文本表达被称为 共指 corefer
Coreference Task 共指任务是将所有文本引用链接到同一个现实世界实体，无论表面形式是否是名称

信息提取方法

IE 方法可分为四类：
• 知识工程方法 Knowledge Engineering Approaches
用手动编写的规则进行标记

• 监督学习方法 Supervised Learning Approaches
监督学习系统被赋予带有手动注释实体+关系的文本，为每个实体/关系创建一个训练实例，接着以特征表示的训练实例
算法包括：覆盖算法、HMM、SVM

• 自举方法 Bootstrapping Approaches
一种只需要最少的关系抽取技术。
系统被赋予种子元组 seed tuples（例如 Microsoft, Redmond ）或者种子模式 seed patterns （例如 [X]ORG 位于 [Y]LOC）
系统在大型语料库中搜索出现的种子元组，然后提取与种子元组上下文相匹配的模式，匹配从中获取新元组的种子模式
假定新元组处于所需的关系中，并被添加到元组存储中，反复迭代直至收敛。

• 远程监督方法Distant Supervision Approaches
有时也