NLP 的各项任务简单介绍（笔记）

最新推荐文章于 2024-09-11 23:46:44 发布

JamePrin

最新推荐文章于 2024-09-11 23:46:44 发布

阅读量1.1k

点赞数 1

分类专栏：神经网络与深度学习笔记文章标签：自然语言处理 nlp

本文链接：https://blog.csdn.net/weixin_52103757/article/details/120573825

版权

神经网络与深度学习笔记专栏收录该内容

11 篇文章 1 订阅

订阅专栏

英文部分：

Combinatory Categorical Grammar（组合分类语法）
Common sense （常识推理）
- 常识推理任务旨在要求模型超越模式识别。相反，模型应该使用“常识”或世界知识来进行推理。

Constituency parsing ( 选区理解 )

选区解析的目的是从句子中提取基于选区的解析树，根据短语结构语法表示其句法结构。

例子：

             Sentence (S)
                 |
   +-------------+------------+
   |                          |
 Noun (N)                Verb Phrase (VP)
   |                          |
 John                 +-------+--------+
                      |                |
                    Verb (V)         Noun (N)
                      |                |
                    sees              Bill

最近的方法在深度优先遍历之后将解析树转换为序列，以便能够对其应用序列到序列模型。上述解析树的线性化版本如下：(S (N) (VP VN))。

Data-to-Text Generation ( 数据到文本生成 )
- 数据到文本生成 (D2T NLG) 可以描述为从结构化输入生成自然语言。不同于其他 NLG 任务，例如机器翻译或问答（也称为文本到文本生成或 T2T NLG），其中要求使用一些非结构化文本输入生成文本输出，在 D2T NLG 中，要求是从以结构化格式提供的输入，例如：表格；或知识图谱；或 JSON

Dependency parsing（依赖解析）

例子：

     root
      |
      | +-------dobj---------+
      | |                    |
nsubj | |   +------det-----+ | +-----nmod------+
+--+  | |   |              | | |               |
|  |  | |   |      +-nmod-+| | |      +-case-+ |
+  |  + |   +      +      || + |      +      | |
I  prefer  the  morning   flight  through  Denver

单词之间的关系在句子上方用从头部到依赖的有向标记弧来说明（+ 表示依赖）。

Dialogue （对话）
- 对话行为分类的任务是根据话语在对话中的功能（即说话者正在执行的行为）对话语进行分类。对话行为是一种言语行为（对于言语行为理论，参见Austin (1975)和Searle (1969)）。
- 基于检索的聊天机器人
  
  这些系统将上下文和可能的响应列表作为输入，并对响应进行排序，返回排名最高的响应。
- 基于生成的聊天机器人
  
  基于生成的聊天机器人的主要任务是根据上下文生成一致且引人入胜的响应。
Entity Linking （实体链接）
- 端到端：处理一段文本以提取实体（即命名实体识别），然后将这些提取的实体消歧为给定知识库中的正确条目（例如 Wikidata、DBpedia、YAGO）。
- 仅消歧：与第一种方法相反，该方法直接将黄金标准命名实体作为输入，并且仅将它们消歧为给定知识库中的正确条目。
- Example:
  
  Barack Obama was born in Hawaï
  https://en.wikipedia.org/wiki/Barack_Obama https://en.wikipedia.org/wiki/Barack_Obama O O O https://en.wikipedia.org/wiki/Hawaii
Grammatical Error Correction （语法错误纠正）
- 语法错误纠正 (GEC) 是纠正文本中不同类型错误的任务，例如拼写、标点符号、语法和单词选择错误。
  
  GEC 通常被制定为句子更正任务。GEC 系统将一个潜在错误的句子作为输入，并期望将其转换为正确的版本。请参阅下面给出的示例：
- Input (Erroneous) Output (Corrected)
  She see Tom is catched by policeman in park at last night. She saw Tom caught by a policeman in the park last night.
Information Extraction （信息抽取）
- 开放知识图谱规范化
  
  开放信息提取方法导致从网络创建大型知识库 (KB)。这种方法的问题在于它们的实体和关系没有规范化，这导致存储冗余和模糊的事实。例如，一个存储 <Barack Obama， was born in, Honolulu > 和 <Obama， took birth in, Honolulu > 的 Open KB 不知道 Barack Obama 和 Obama 指的是同一个实体。同样， took birth in & was born in 也指相同的关系。开放知识库规范化的问题涉及识别知识库中的等效实体和关系组。

Barack	Obama	was	born	in	Hawaï
https://en.wikipedia.org/wiki/Barack_Obama	https://en.wikipedia.org/wiki/Barack_Obama	O	O	O	https://en.wikipedia.org/wiki/Hawaii

Input (Erroneous)	Output (Corrected)
She see Tom is catched by policeman in park at last night.	She saw Tom caught by a policeman in the park last night.

Intent Detection and Slot Filling ( 意图检测和槽填充 )

意图检测和槽填充是通过提取意图和相关槽来解释用户命令/查询的任务。

Example (from ATIS):

Query: What flights are available from pittsburgh to baltimore on thursday morning
Intent: flight info
Slots: 
    - from_city: pittsburgh
    - to_city: baltimore
    - depart_date: thursday
    - depart_time: morning

Language modeling （语言模型）
- 语言建模是预测文档中的下一个单词或字符的任务。 * 表示使用动态评估的模型；其中，在测试时，模型可能会适应看到的标记，以提高后续标记的性能。
Lexical Normalization （词汇规范化）
- 词法规范化是将非标准文本翻译/转换为标准文本的任务。
- Example:
```
new pix comming tomoroe
new pictures coming tomorrow
```
- 数据集通常由推文组成，因为这些推文自然包含大量这些现象。对于词法规范化，仅对单词级别的替换进行注释。一些语料库包括 1-N 和 N-1 替换的注释。但是，单词插入/删除和重新排序不是任务的一部分。
Machine translation（机器翻译）

-  机器翻译是将源语言的句子翻译成不同的目标语言的任务。

Missing Elements ( 缺少元素 )
- 缺失元素是一组现象，用于处理文本中未明确提及的事物。有不同种类的缺失元素，它们具有不同的方面和行为。例如，省略号、融合头、桥接回指等。
Reference

I bought 5 apples but got only 4 .
HEAD NFH-REFERENCE
Implicit

Let ’s meet at 5 tomorrow ?
NFH-TIME
Multi-task learning ( 多任务学习 )
- 多任务学习旨在同时学习多个不同的任务，同时最大限度地提高一项或所有任务的性能。
Multimodal （多模态）
- 多模态情感识别
- 多模态隐喻识别
- 多模态情感分析
- 视觉问答
Named entity recognition （命名实体识别）
- 命名实体识别 (NER) 是使用相应类型标记文本中的实体的任务。方法通常使用 BIO 符号，它区分实体的开头 (B) 和内部 (I)。 O 用于非实体令牌。
- Example:
  
  Mark Watney visited Mars
  B-PER I-PER O B-LOC

Mark	Watney	visited	Mars
B-PER	I-PER	O	B-LOC

Natural language inference （自然语言推理）

自然语言推理是在给定“前提”的情况下确定“假设”是真（蕴涵）、假（矛盾）还是不确定（中性）的任务。

Example:

Premise	Label	Hypothesis
A man inspects the uniform of a figure in some East Asian country.	contradiction	The man is sleeping.
An older and younger man smiling.	neutral	Two men are smiling and laughing at the cats playing on the floor.
A soccer game with multiple males playing.	entailment	Some men are playing a sport.

Part-of-speech tagging （词性标注）
- 词性标注（词性标注）是用词性标记文本中的单词的任务。词性是具有相似语法特性的一类词。常见的英语词性有名词、动词、形容词、副词、代词、介词、连词等。
- Example:
  
  Vinken , 61 years old
  NNP , CD NNS JJ
Paraphrase Generation ( 释义生成 )
- 释义生成是生成输出句子的任务，该句子保留输入句子的含义，但包含单词选择和语法的变化。请参阅下面给出的示例：
- Input Output
  The need for investors to earn a commercial return may put upward pressure on prices The need for profit is likely to push up prices
Question answering ( 问答 )
- 问答是回答问题的任务。
Relation Prediction ( 关系预测 )
- 关系预测是识别两个命名语义实体之间命名关系的任务。常见的测试设置是从关系三元组中隐藏一个实体，要求系统根据另一个实体和关系类型来恢复它。例如，给定三元组 <Roman Jakobson,birth-in-city, ?>，系统需要将问号替换为莫斯科。关系预测数据集通常从两种类型的资源中提取：知识库：诸如 FreeBase 之类的知识库包含数百或数千种关系类型，这些关系类型与从数百万实体的各种资源中自动或半自动获得的世界知识相关。这些关系包括出生地、国籍、所在（对于地理实体）、部分（对于组织等）等等。语义图：像 WordNet 这样的 SG 通常是人工策划的语义概念资源，与免费的现实世界知识相比，仅限于更“语言”的关系。最常见的语义关系是上位词，也称为 is-a 关系（例如：<cat, hypernym, feline>）。
Relationship Extraction （关系抽取）
- 关系抽取是从文本中抽取语义关系的任务。提取的关系通常发生在特定类型的两个或多个实体之间（例如人员、组织、位置），并且属于许多语义类别（例如结婚、受雇、居住）。
Semantic textual similarity （语义文本相似度）
- 语义文本相似性处理确定两段文本的相似程度。这可以采取从 1 到 5 分配分数的形式。相关任务是释义或重复识别。
Semantic role labeling （语义角色标注）
- 语义角色标记旨在对句子的谓词-参数结构进行建模，通常被描述为回答“谁对谁做了什么”。 BIO 符号通常用于语义角色标记。
- Example:
  
  Housing starts are expected to quicken a bit from August’s pace
  B-ARG1 I-ARG1 O O O V B-ARG2 I-ARG2 B-ARG3 I-ARG3 I-ARG3
Sentiment analysis （情感分析）
- 情感分析是对给定文本的极性进行分类的任务。
Shallow syntax （浅层语法）
- 浅层句法任务在文本的句法结构级别上提供对文本的分析。
- 分块，也称为浅层解析，可识别形成句法单元（如名词短语或动词短语）的连续跨度标记。
- Example:
  
  Vinken , 61 years old
  B-NLP I-NP I-NP I-NP I-NP
Simplification （简化）
- 简化包括修改文本的内容和结构以使其更易于阅读和理解，同时保留其主要思想并接近其原始含义。自动简化文本可以提高其他 NLP 任务的性能，例如解析、总结、信息提取、语义角色标记和机器翻译。
Stance detection （姿态检测）
- 立场检测是提取主体对主要参与者提出的主张的反应。它是一系列假新闻评估方法的核心部分。
- ```
Example:

- Source: “Apples are the most delicious fruit in existence”
- Reply: “Obviously not, because that is a reuben from Katz’s”
- Stance: deny
```
Summarization （总结）
- 摘要是生成一个或多个文档的较短版本的任务，该版本保留了输入的大部分含义。
Taxonomy Learning （分类学习）
- 分类学习是从文本语料库中以自动方式对概念进行分层分类的任务。构建分类法的过程通常分为两个主要步骤：
- （1）提取概念的上位词，这本身可能构成一个研究领域（参见下面的上位词发现）
- （2）将结构细化为分类法。
Temporal Processing ( 时间处理 )
Text classification （文本分类）
- 文本分类是为句子或文档分配适当类别的任务。类别取决于所选的数据集，范围可以从主题。
Word Sense Disambiguation （语义消歧）
- 词义消歧 (WSD) 的任务包括将上下文中的词与其在预定义词义清单中最合适的条目相关联。 WSD 中英语的实际意义清单是 WordNet。
- 例如，给定单词“mouse”和以下句子： “鼠标由一个人手持的物体组成，带有一个或多个按钮。” 我们会用它的电子设备感觉（WordNet 感觉清单中的第四种感觉）来分配“鼠标”。