摘要
- 首先这篇文献是发布在IJNLP2021,ACL上的一篇处理多标签分类的文章;
- 这篇文献中指出之前一些多标签文本分类方法处理时,常常是使用标签相关性。但是,之前的这些工作中常常是很难去区分相似的标签,他们针对于相似的标签学习到了相似的文本表示,即在针对于相似标签的表示学习中,他们并没有学习到针对于特定标签的语义成分;
- 同时文中还提到了使用高阶的标签相关性将会对处理长尾分布的标签十分有帮助;
- 文中提到的处理多标签文本分类的方法就是使用针对于特定标签的双重图神经网络从文档中学习到针对于特定标签组成部分,并且基于标签共现统计信息以及动态联合构建出一个图,最终构建一个完整且自适应的相互关系,
引言
- 本部分中提到之前的多标签文本分类存在两个问题:
-
第一个是相似的标签之间无法区分的问题;
- 这种问题之所以会存在是因为两个点:首先,没有学习到特定的标签和文档之间的相关性关系;其次是他们对于每一个标签学习到的文档表示都是相同的,这就表示他并没有捕捉到跟特定标签相对应的语义组件部分;
- 以上问题导致相近的标签由于没有具有区分性的表示,最终导致这些标签具有很差的区分性;
-
第二个是模型并没有学习到这些模块对应的语义部分的相关关系;
-
对于第一个问题的解决方案是使用Attention机制来学习到针对于特定标签的文档的表示,最终可以得到针对于每一个标签对应的语义部分;
-
对于第二种方法大部分的解决方案是通过标签的共现信息,构建相应的图,从而表示出这些标签对应部分的相互关系;
- 但是,对于这种方法存在三种缺点:
- 首先,从train set中构建的共现模式图通常是不完整的且是具有噪声的,如果test set中的label没有出现在train set中,这种情况下这些标签将会被忽略,并且如果在train set中含有一些少见的label,这些信息将会成为噪声信息,影响common label的预测;
- 其次,这种图的构建是全局性的,必将会导致构建全局图之后,模型对于一些稀少的标签具有偏见;
- 最后,如果使用统计共现的标签信息,可能会导致产生长尾分布;
-
-
- 文中解决上面的两种问题,分别提出了两种方式
- 解决第一个问题,使用的是Attention机制;
- 解决第二个问题,首先使用label的共现统计信息,使用一次卷积神经网络获取得到一个label对应的语义组件的表示;然后再根据这表示,在这些学习到的组件在局部上再次使用一次GCN,得到最终的label对应的不同的语义组件信息;
- 文中贡献点:
- 捕捉到了针对于特定标签文档部分对应的组件信息,捕获这些组件之间的相互联系;
- 使用两次GCN来解决捕获这些组件之间的相互联系;
模型
-
这个文献是第一次见到的,没有讲到Related work的内容。
-
首先,在模型部分提到了关于本模型中解决的多标签短文本分类的形式定义,将文档集合定义为 D = { x i , y i } N D=\{x_i,y_i\}^N D={ xi,yi}N ,其中, x i x_i xi 表示一个文档,这个文档中含有 J J J 个word, y i y_i yi 表示 x i x_i xi 对应的标签集,本模型中定义标签空间中的标签数为 ∣ C ∣ |C| ∣