多标签文本分类研究进展概述

本文概述了多标签文本分类的研究,包括数据集、预处理、模型训练和预测流程。介绍了传统机器学习和深度学习(CNN、RNN、Transformer)在多标签分类中的应用。深度学习模型如TextCNN、TextRNN、BERT等在处理文本特征和标签关系上取得进展,但也面临数据集缺失、极端多标签、标签相关性和长尾分布等问题。未来研究将聚焦于高效模型和标签关系的深入探索。
摘要由CSDN通过智能技术生成

多标签文本分类研究进展概述

1.多标签文本分类的研究还有很大的提升空间.

2.多标签文本分类的基本流程,包括数据集获取、文本预处理、模型训练和预测结果;

3.多标签文本分类的方法:传统机器学习的方法和基于深度学习的方法。传统机器学习方法主要包括问题转换方法和算法自适应方法。基于深度学习的方法是利用各种神经网络模型来处理多标签文本分类问题,根据模型结构,将其分为基于 CNN 结构、基于 RNN 结构和基于 Transformer 结构的多标签文本分类方法;

4.未来的发展趋势进行了分析与展望。

多标签文本分类定义

       一个样本与多个类别的标签相关,同时类别标签之间存在一定的依赖关系,称为多标签文本分类。

多标签文本分类的任务

将一个待分类的文本通过特定的分类器对该文本给定多个标签。假 定D={(xi,yi)}是训练集中的样本,利用设计的模型学习到一个映射f:X->Y,其中xi∈X,yi∈Y是实例 xi所对应的类别标签。该映射如图 1 来所示。
在这里插入图片描述

多标签文本分类的流程

       多标签文本分类的具体流程包括数据集获取、文本预处理、模型训练和预测结果,如图 2 所示。
在这里插入图片描述
(1)数据集
一般分为训练集、测试集和验证集。收集了一些多在标签文本分类领域中常用的数据集,根据标签数量的多少可以将其分为小型数据集(标签数 0-10,000)、中型数据集(标签数 10,000-100,000)和大型数据集(标签数超过 100,000)
在这里插入图片描述

  • Ren-CECps1.0: 一个多标签的中文情感语料库。它包含了37678 个中文博客的句子和 11 种情感标签,其中每句话被赋予一种或多种情感。
  • Reuters-21578:是路透社金融新闻服务进行分类的常用数据集,其中包含了 7769 个训练文本和 3019 个测试文本,其中包含多个标签和单个标签。
  • AAPD:从网络上收集了 55840 篇论文的摘要和相应学科类别,一篇学术论文属于一个或者多个学科,总共由 54个学科组成,目的是根据给定的摘要来预测学术论文相对应的学科。
  • RCV1-V2:共有 804414篇新闻,每篇新闻故事分配有多个主题,共有 103 个主题。
  • EUR-Lex:由欧盟法律组成的,里面包含了许多不同类型的文件,包括条约、立法、判例法和立法提案,共有 19314 个文档,3956 个分类。
  • AmazonCat-13K:该数据集是来自于亚马逊,其中包括评论(评分,文字,帮助性投票),产品元数据(描述,类别信息,价格,品牌和图像特征)和链接(也可以查看/购买的图表),在做多标签文本分类得时候主要考虑的是类别信息。
  • Amazon-670K:亚马逊商品的评论、产品的数据,和 AmazonCat-13K 的数据有类似之处,只是规模和商品不一样。
  • Amazon-3M:亚马逊,包含的是产品的信息,链接以及产品的评论。

以上的 8 个数据集中只 有 Ren-CECps1.0 数据集是中文,其他的都是英文。大 部分都是来自于亚马逊网站,都是商品的评论,所以 适合用来做短文本分类。

(2)文本预处理
分词、词干提取、词性还原等。
(3)文本表示
预处理之后要进行向量化表示,文本表示的两类方法:

  • 离散表示
    One-hot 编码、词袋(Bag of Words, BOW)模型
  • 分布式表示
    共现矩阵、Word2Vec、Glove等,Word2Vec 和 Glove 是第一代预训练模型,通常采用的是浅层模型来学习词嵌入,新一代 预训练模型专注于学习上下文的词嵌入,如 ELMo、OpenAI、GPT和 BERT,新一代 预训练模型(Pre-trained Models,PTM)学习更合理的词表征,包括了上下文信息。

(4)特征降维
        特征降维也称特征提取。通过文本向量化处理后得到的特征比较稀疏,维度较高。特征提取就是在保证文本语义表达完整的前提下,去除无用特征,保留有效特征,进行特征降维。常用方法TF-IDF、卡方检验、深度神经网络等。在预训练模型提出之后,大多数预训练模型采取Transformer 结构作为特征提取模块。
(5)分类器和输出类别
       将预处理之后的文本(训练集)送入特定的分类器(模型)中进行训练,得到分类器模型。通过验证集和测试集进行输出类别的预测,利用 F1 值等相关指标来评判模型的优劣。

多标签文本分类的方法

     基于深度学习方法是利用各种神经网络模型来处理多标签文本分类问题,根据模型结构,将其分为基于CNN 结构、基于 RNN 结构和基于 Transformer 结构的多标签文本分类方法。

  • TextCNN 模型
    Convolutional neural networks for sentence classification 2014,该方法首次将 CNN 结构用于文本分类,但是该模型无法避免使用 CNN 中固定窗口的缺点,因此无法建模更长的序列信息。(该缺点已解决)
  • TextRCNN模型
    Recurrent convolutional neural networks for text classification 2015,该方法主要针对传统分类方法存在着忽略上下文的问题以及针对 CNN 卷积窗口设置问题,结合了RNN 和 CNN 的优点提出了 RCNN 模型。
  • TextRNN 模型
    Recurrent neural network for text classification with multi-task learning 2016,
  • 分层注意力网络模型 HAN
    Hierarchical attention networks for document classification 2016,将 attention机制加入到 TextRNN 中,提出一个分层注意力网络模型 HAN,采用“词-句子-文章”的层次化结构来表示一篇文本,具有很好的可解释性。
  • BERT
    How to fine-tune bert for text classification? 2019,随着 transformer 和BERT 的提出,将 BERT 应用到文本分类中,介绍了一些调参以及改进的方法,进一步挖掘BERT 在文本分类中的应用。

下面按照网络结构的不同,将基于深度学习的多标签文本分类算法分为三大类,包括基于 CNN、基于RNN 和基于 Transformer 的多标签文本分类。

基于 CNN 的多标签文本分类

在这里插入图片描述

  • Mark[提出了一种分别将 TextCNN 和 GRU 循环网络与 word2vec
    词向量使用的方法
    来解决大规模多标签文本分类问题。
  • Liu 等人基于 TextCNN 结构进行了改进提出了 XML-CNN
    模型,该模型使用了动态池化,改进了损失函数,采用了二元交叉熵损失函数,并在池化层和输出层之间加了一个隐藏层,能够将将高维标签映射到低维,以此来减少计算量。

      基于 CNN 的多标签文本分类方法都是对 CNN 结 构改进,以此来适应多标签文本分类,但是利用 CNN 的池化操作时,会造成语义信息的丢失,并且当文本过长时,CNN 不利于捕获前后文的关系而造成语义的偏差。

基于 RNN 的多标签文本分类

大多数输入都是序列数据,比如一个句子就是一个序列数据。RNN 类似于所有的深层架构,网络越深,梯度消失和梯度爆炸问题也就越明显,无法掌握长时间跨度非线性关系,因此在采用 RNN的时候往往会采用改进的 RNN 结构,包括长短时记忆网络(Long Short-Term Memory,LSTM)和 GRU(Gate Recurrent Unit)来解决长期依赖问题。这些深度神经网络处理的都是定长序列的问题,即输入和输出的大小是固定不变的。为了解决这个问题,Sutskever 等人提出了序列到序列(Sequence to Sequence,Seq2Seq)的结构。

  • Nam 等人利用 RNN 来代替分类器链,并使用基于 RNN 的 Seq2Seq 去建模,这种方法可以借助 RNN依次产生标签序列来捕获标签之间的相关性。这是首次将 Seq2Seq 模型应用在多标签文本分类上,在这之后,有更多的 Seq2Seq 模型提出来来处理多标签文本分类。
  • Chen 等人提出了一种 CNN 和 RNN 的融合机制,先将词向量送入到 CNN 中得到文本特征序列,然后将该特征输入到 RNN
    中得到相应的预测标签。但是该模型受训练集大小影响较大,如果训练集过小,可能会产生过拟合。
  • Yang 等人提出了引入注意力机制的 SGM 模型,也是一种 Seq2Seq 结构的模型,该模型将多标签分类任务视为序列生成问题以此来考虑标签之间的相关性,也是首次将序列生成的思想应用到多标签文本分类中。编码部分采用的是 Bi-LSTM 来获取单词的序列信息,并且提出了一种具有带注意力机制的解码器结构的序列生成模型,该解码器在预测的时候能够自动选择最有信息量的单词。
  • Lin 等人提出多级扩展卷积,是通过在原始编码器(LSTM)生成表示法的基础上,应用多层卷积神经网络通过捕获单词之间的局部相关性和长期依赖性来生成语义单元表示,进而增强 Seq2Seq 的效果,并且将高层的 Attention 和词级别的 Attention 做了整合,提出混合注意力(Hybrid Attention)来兼顾各个级别表示的信息。
  • You 等人提出了基于标签树的 Attention-XML 模型,该模型通过使用 Bi-LSTM 来捕获单词之间的长距离依赖关系以及使用多标签注意来捕获文本中与每个标签最相关的部分,针对长尾标签,提出了概率标签树(Probability Label Tree,PLT),能够高效的处理上百万级别的标签。

       基于 RNN 的多标签文本分类方法大多都是采用 Seq2Seq 结构来实现,利用序列生成来考虑标签间的关系,后一个标签往往是依赖于前一个标签的,因此 错误标签带来的影响往往就会叠加,虽然有一些方法 提出了改进,但还是存在着缺陷。并且利用这种结果 虽然提升了结果,但是能否很好的学习到标签之间的 相关性还有待商榷。

基于 Transformer 的多标签文本分类

     Transformer 的提出给自然语言处理领域带来了极大的影响,之后的预训练模型 GPT-2 和 BERT 都是基于 Transformer 结构提出的,BERT的提出可以说是自然语言处理领域的里程碑,在多标签分类领域,也有很多用 Transformer 的模型被提出:

  • Yarullin 等人首次尝试 BERT 并探索其在多标签设置和分层文本分类中,提出应用在多标签文本分类领域的序列生成 BERT 模型。
  • Chang 等人提出 X-Transformer 模型,该模型是由三个部分组成,包括语义标签序列组件(SLI)、深度神经匹配组件和整体排名组件。
  • GONG 等人提出 HG-Transformer 的深度学习模型,该模型首先将文建模为一个图形结构,然后在单词,句子和图形级别使用具有多头注意机制的多层 transformer 结构以充分捕获文本的特征,最后利用标签的层次关系来生成标签的表示形式,并基于标签的语义距离设计加权损失函数。

       基于 Transformer 结构的多标签文本分类模型的 效果往往会优于基于 CNN 和基于 RNN 结构的模型, 但是基于 Transformer 结构的模型比起前两种结构来 说,参数量往往是巨大的,并且网络结构比较复杂, 在实际场景中难以应用。

      深度学习的方法可以自动提取特征,这也就大大减少了花费,也使得算法的鲁棒性更强,不过对于设备和硬件要求以及设备计算能力要求也大大提升,并且在数据规模上要求更大,深度学习在可解释性上不如机器学习,它能够给出一个结果,但是中间的过程相当于一个黑盒子;深度学习的算法虽然大大提高了多标签文本分类的效果,但还是有很大的提高空间。

模型汇总(2019-2021)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

多标签文本分类性能评价

在多标签文本分类中,常用的评价指标通常包括Hamming loss、Micro-F1 值。

  • Hamming loss
    衡量被错分的标签的比例大小,正确的标签没有被预测正确以及错误标签被预测的标
    签占比,简单来说就是两个标签集合的差别占比,汉明损失的值越小,预测结果就越好。计算公式如下:
    在这里插入图片描述
    其中 |D| 是样本的数量, |L |是标签的总数,xi 表示标签,yi 表示真实标签,XOR 是异或运算。
  • Micro-precision、Micro-recall 和 Micro-F1
    多标签文本分类将文本赋予多个标签,标签数量也 不 是 固 定 的 , 通 常 使 用 Micro-precision 和Micro-recall,考虑所有标签的整体精确率和召回率,在理想情况下是两者都越高越好,但实际情况往往会产生矛盾,因此,在多标签文本分类领域,采用的是Micro-F1 来评价,Micro-F1 是 Micro-precision 和Micro-recall 的调和平均。其计算公式如下所示(其中 L 代表类别标签总数):

在这里插入图片描述

结果分析

多标签文本分类模型在 AAPD、RCV1-V2、EUR-Lex等数据集结果的总结。
在这里插入图片描述通过模型在 AAPD、RCV1-V2、EUR-Lex 等数据集上的结果显示,F1 值逐渐提升,在 RCV1-V2 数据集上 F1 值从 0.7842 提升到 0.893,在 AAPD 数据集上F1 值从 0.674 提升到 0.725,提升效果明显。但还有很大的上升空间,特别是在预训练模型提出后,在各项任务上都取得了不错的效果,比如 BERT 的提出在11 项 NLP 任务中都取得了很好的效果。

总结与展望

多标签文本分类相较于单标签文本分类来说更加的复杂,还存在着很多的挑战,主要体现在以下几点:
(1)特定领域的数据集缺失问题。

(2)极端多标签文本分类问题。极端多标签文本分类的难点在于标签集的数目非常多,包含数十万、甚至成百上千万的标签。目前多标签文本分类模型的内存占用、模型大小都随着标签空间的变大而线性变大,在面对极端多的标签时,无法成功部署甚至训练。因此,如何设计出一个高效的模型来解决极端多标签文本分类问题是未来亟待解决的一个难点。

(3)标签间的相关性研究问题。多标签文本分类标签之间是存在内在联系的,比如属于“人工智能”的文本往往跟“深度学习”是相关联的。传统的一些方法在处理多标签文本分类问题上,往往没有考虑标签之间的相关性,这也严重影响了模型的效率。Baker 等人提出了一种分层的多标签文本分类方法来得到标签间的共现关系,但只是考虑了标签之间浅层次的关系,忽略了标签之间深层次的关系。因此,如何高效捕捉标签间的关系也是多标签文本分类任务未来的一大研究重点。

(4)数据集标签长尾问题
对于多标签文本分类领域存在的数据集,都是由文本集和标签集构成的,对于标签集来说就会有分布不均衡的问题存在,部分标签与很多文本样本相关联,而还有的一些标签甚至不与文本样本相关联,可以理解为标签“长尾”的问题。用不平衡的数据训练出来的模型会导致样本少的种类预测性能很差,甚至无法预测。因此,如何解决标签长尾问题也是多标签文本分类领域一个重要的研究问题

参考文献(2019-2021)

  • Attention is all you need 2017
  • 基于改进 seq2seq 模型的多标签文本分类研究.大连海事大学,2020. 刘心惠
  • BERT: pre-training of deep bidirectional transformers for language understanding.In NAACL-HLT, 2019
  • Pre-trained Models for Natural Language Processing: 2020.
  • MSCNN: A MonomericSiamese Convolutional Neural Network for Extremely Imbalanced Multi-label Text Classification(EMNLP). 2020
  • Adapting RNN sequence prediction model to multi-label set prediction 2019.
  • Attentionxml: Label tree-based attention-aware deep model for high-performance extreme multi-label text classification //Advances in Neural Information Processing Sys-tems. 2019
  • Hierarchical Sequence-to-Sequence Model for Multi-Label Text Classification IEEE 2019
  • BERT for Sequence-to-Sequence Multi-Label Text Classification 2019.
  • Taming Pretrained Transformers for Extreme Multi-label Text Classification (2020 the 26th ACM SIGKDD )
  • Hierarchical graph transformer-based deep learning model for large-scale multilabel text classification IEEE 2020
  • The Emerging Trends of Multi-Label Learning 2020.
  • Distribution-balanced loss for multi-label classification in long-tailed datasets (European Conference on Computer Vision. Springer, Cham, 2020)
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值