Multi-label Few and Zero-shot Learning with Knowledge Aggregated from Multiple Label Graphs

最新推荐文章于 2024-09-12 20:16:00 发布

奋斗的海绵

最新推荐文章于 2024-09-12 20:16:00 发布

阅读量142

点赞数

分类专栏：多标签短文本 NLP 文章标签：机器学习自然语言处理算法

本文链接：https://blog.csdn.net/weixin_44695049/article/details/130114797

版权

本文介绍了一种利用多图知识聚合解决多标签文本分类中的few-shot和zero-shot问题的方法。通过融合预训练词向量、标签描述和预定义标签关系等不同语义信息，构建并学习标签图，以此提高模型在小样本和无样本情况下的分类能力。文章在医疗数据集上验证了这种方法的有效性，并强调了结构化信息的重要性。

摘要由CSDN通过智能技术生成

文章简介

这篇文章是之前Wang R, Long S, Dai X, et al. Meta-LMTC: meta-learning for large-scale multi-label text classification[C]//Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. 2021: 8633-8646. 中多次提到的引用文章，通过查找这个文章来源之后，发现这篇文章也是来源于EMNLP上的一篇文章；同时这篇文章的处理对象也是multi-label text classification中的few-shot和zero-shot问题；
文中在前言部分提到这篇文章中提出的模型主要针对处理的问题是多标签分类中的few-shot和zero-shot问题。具体的解决办法是通过一种多图知识融合的方法处理的，就是通过融合不同角度的label图信息将不同的语义信息进行一起编码。然后，通过学习得到的知识来解决多标签分类中的few-shot和zero-shot问题；
文中提到的模型使用了三个不同的语义信息：
- 预训练的词向量嵌入信息
- 标签描述信息
- 预定义的标签关系

前言

首先，在前言部分中重点是描述了多标签分类任务对于CV领域和NLP领域中的许多应用产生了深远的影响，但是由于标签数量的指数型增长以及标签组合产生的不同标签集的多样性，从而导致了这种任务变得具有挑战性；
文中重点阐述了多标签分类中不得不面对的两个问题：一个是few-shot问题，另一个是zero-shot问题；
下面为了引出文中的做出的主要贡献点，文中提出每一个标签的诞生都是自然而然的带有结构化信息，这种结构化信息可以捕捉到不同的标签的之间的相关性信息；在一些文献中使用树结构来表述这种关系，对于一条边连接的两个节点，这两个节点之间的关系表示的关系是一个is-a关系，是父子节点的关系；
同时作者提到文中在医疗数据集上的是通过利用上面的代码的共现图以及代码的描述图这两个图的信息来整合得到最终的代码相似图，上面提到的代码都是医疗上的代码信息；并且有证据表明如果忽略结构化信息或者是假设各个标签都是相互独立的，这些方式获得的信息将会是不充分的；
文中提到的整合多个不同图中的信息使用了三个不同的语义信息：
- 预训练的词向量嵌入信息
- 标签描述信息
- 预定义的标签关系
可以将文中提到的结构作为不同的网络模型中的一个组成部分，我想应该是作为体现标签关联性、语义性、以及结构性的信息，也可以将这个模块单独的作为一个单独的模型来使用，从而进行灵活使用；

Learning with Knowledge Aggregation

模型问题定义
1. 这个模型中仍然使用跟之前的那篇21年的ACL的文章中相同的问题定义描述，其中使用 $C_S$ 和 $C_U$ 来分别表示已知的标签和未知的标签；即在训练集有相应的训练数据的数据，以及在训练数据中没有对应训练数据的数据；
2. 同时有三点注意点：
  - 在这些标签中每一个标签都有相应的描述信息；
  - 在标签图中的标签相关信息是通过不同的资源信息计算得到的；
  - 跟 $C_U$ 相关的文档是不包含在训练文档数据中的；
具有标签注意力机制的文档编码器
1. 文中提到了几个不同功能的模块，第一个部分的模块是文档的编码器 $Φ$ ，这个编码器可以将不同data set中具有不同的数据特征的文档进行编码，学到一个关于文档的一个很好的表示 $F_i = Φ(x_i)$ ；
  - 对于上面的 $F_i$ 是一个n*u维的矩阵，如果是使用BERT作为编码器时，其中的n表示单词的个数，u表示BERT的输出层的维度信息，即每一个单词向量的维度信息；如果使用的是CNN作为编码器，其中n表示不同的S元语言模型的个数，而u表示的是每一个S-gram中包含的卷积核的数量；
2. 同时，使用 $v_l$ 表示标签的嵌入表示，这种表示是通过使用标签的表示信息得到TF-IDF权重，是预训练的词的嵌入平均值；然后使用这个标签嵌入和文档的表示一起做针对于标签的注意力计算：
  
  公式1表示第 $i$ 个文档结合标签一起做出的注意力机制的权重值，然后使用这个权重在公式2中进行加权计算，得到最终的文档嵌入表示；
KAMG(Knowledge Aggregation from Multi-Graphs) 模型处理流程
1. 本文中提出的模型简称为KAMG模型，这个模型中使用了三个不同的标签图，分别是
  - $A_g$ : 标签结构图，这个图通过标签集中自