Multi-Label Classification of Microblogging Texts Using Convolution Neural Network笔记_mlgn:a multi-label guided network for improving te-CSDN博客

本文链接：https://blog.csdn.net/weixin_44695049/article/details/129939369

本文探讨了微博文本多标签分类的挑战，如数据稀疏性和维度灾难，并提出了一种结合通用领域（GloVe）和特定领域（PubMed）词向量的CNN模型。通过四种不同的CNN架构进行实验，证明了结合两种词向量的模型在处理特定领域文本时的优越性。实验在Twitter疾病数据集上进行，与传统方法和单纯CNN方法比较，显示了模型的有效性。

摘要由CSDN通过智能技术生成

这篇文章是针对于Microblog的多标签分类模型文章，
1. 由于微博文章所具有的这些特征表明这种类型的data也是短文本数据，所以文中提到这种数据进行多标签分类任务具有的重大难点就在于：数据的稀疏性问题以及维度灾难问题；
2. 针对于这种数据处理任务的场景下，文中提出的短文本多标签处理模型的架构是基于CNN的处理架构，这种架构充分利用来自于通用领域的词向量信息和特定领域的词向量信息。这些词向量被分别独立使用，同时通过CNN不同通道的结合方式最终完成对于类标签的预测任务；
3. 文中在进行对比实验的时候，将本文中提出的模型和传统的机器学习算法以及现存的CNN的一些架构的方法进行了比较，得出了文中的模型效果较好；
文中在Introduction中重点介绍了在NLP领域对于data的表示问题，从不同的标签到嵌入的转换的历史问题，同时引出了本文中使用了两种类型的词嵌入的理论依据以及相应的优势，最终介绍了文中使用的模型架构；
1. 首先，特征表示问题作为NLP相关任务处理步骤中的一个重要的关键部分，就是将不同源中的数据表示为特征的形式；早在ML兴起的时候，使用的进行特征表示的方法有BOW和N-gram、TF-IDF方法，但是这些方法的缺陷就是没有考虑到对于文本而言的序列问题以及上下文的丰富语义信息，仅仅是简单的考虑的相关的词频或者是单词是否出现问题，最终导致了数据的稀疏性问题；
2. 由于原始的特征表示方法具有上述的缺点，所以，后面的提出了 “词嵌入” 的方式，就是将整个上下文考虑为一个嵌入空间，将每个单词的表示为一个在嵌入空间中的向量。这种方法的背后依据的原则是在语义上可能相似的词在上下文的窗口中也是会显式或者是隐式的靠近；所以通过向量之间的距离来表示两个词之间的相似度；
3. 对于上面的使用Word Embedding的方式来进行表示学习的道路中产生了几种高效的模型，Word2Vec：CBOW and Skip-Gram以及GLOVE模型；
4. 但是后面这种情况又引发出了问题，就是如果用来训练对应词表的语料库是比较单一的，或者说是领域较少的，那么最终学习得到的这个词表可能是具有较低的泛化能力，这种情况可能对于一些一词多义的词具有较差的处理能力，比方说，对于Apple这个词，它既可以代表是公司也可以代表是一种水果；所以表明需要针对于泛化能力的加强使用较多的语料库进行训练；
5. 但是对于上面这种使用无监督学习的方式来学习得到的嵌入表示，这种方式学习得到的知识不包含指定领域的信息，所以在处理特定的领域问题上的，肯定是要比专门针对于特定领域进行训练的嵌入表示性能要差；
6. 因此，文中的贡献点来了，文中使用了两种嵌入词表相结合的方式，一个是GLOVE来提供泛化的知识信息，另一个是使用的基于PubMed语料库训练出来的针对于生物学上的特定领域的嵌入信息；
7. 同时在基于CNN架构的方式下，提出了4中不同的模型——CNN-PubMed, CNN-GloVe,CNN-PGConcat, and CNN-PGAverage 区别在于使用嵌入表示不同，
  1. 前面的两种CNN-PubMed, CNN-GloVe分别是基于CNN框架下的，使用PubMed嵌入表示和GLove嵌入表示模型，
  2. 后面的两种方式是使用的结合嵌入词向量的方式，CNN-PGConcat和CNN-PGAverage是在 $so f t ma x$ 之前对全连接层的输出结果进行连接还是进行取平均操作，
  3. 于是可能又产生了两种模型CNN-IEC，CNN-IEA，这两种模型是指对于嵌入层输出的这两种嵌入模型产生的嵌入表示在输入层进行连接和取平均操作，然后将整合之后的表示输入到基于CNN架构中，进行分类处理；
8. 文中对于这些模型的评估是基于推特的特定疾病数据集进行评估测试，就是基于这些推特数据内容将这些推特数据整合到特定的分类中；然后和传统的方法以及单纯的CNN方法进行比较；
文中在相关工作中主要是叙述了特征表示上的相关工作，同时叙述了特征表示学习的重要性，估计主要是为了突出这篇文章中的贡献点——使用了两种词嵌入进行表示
1. 一种是泛化型的词嵌入表示（Glove）、还有一种是特定型的词嵌入表示，模型中使用的是PubMed嵌入表示，这个嵌入表示主要是针对于生物医学上的相关特征表示；
2. 文中突出在我们NLP的文本分类任务执行之前，我们首先进行的就是表示学习；
3. 早在最早时期，ML时期，使用的表示学习方式为bag of words（BOW）模型来进行特征表示；
4. 到了神经网络兴起的时期，我们使用的方法就转到了使用神经网络训练得到的相关表示模型，Word2Vec和Glove模型较为出名；
5. 再到后面发展，出现神经网络模型为了学习特定领域的词嵌入表示在特定的corpus上进行训练的词嵌入表示模型——Dis2Vec 是针对于疾病的词嵌入表示模型、ProtVec 是针对于蛋白质的词嵌入表示模型等等；
6. 然后文中又简单介绍了CNN模型在神经网络应用领域中举足轻重的地位。
7. 最终，文中回归到自身的模型中，提到本文中讲述的模型使用的是在输入层中使用向量的连接和平均化进行处理合并泛化以及指定领域的上下文，而不是将他们作为独立的输入向量输入到模型中；
PRELIMINARIES 部分主要是叙述神经网络的构建以及各个模块的作用，还有数据在输入到这个模型之后，经过一系列处理之后达到的结果，最终叙述了神经网络训练的全过程：
1. This section presents technical aspects of the neural network models. A neural network comprises computational units analogous to our brain neurons forming a network structure, with each neuron having input and output here in each input has associated weight. The input is multiplied with its associated weights; the resultant summed value is fed into a non-linear function; and nally, the neuron produces non-linearly transformed value as output. The recurrent neural networks are the most widely used neural networks by machine learning professionals.
2. Figure 1 depicts a feed-forward neural network structure in which circles representing neurons, and incoming and outgoing arrows representing input and output of a neuron, respectively. The layout of neurons form different layers with a bottom layer representing input, a top layer representing output, and the two layers between the top and bottom layers representing hidden layers. The shape inside neurons of the hidden layers represents non-linear functions (e.g., sigmoid, tanh, relu, etc.). Hidden layer neurons use any of these non-linear functions to determine output using the weighted input values. The simplest feed forward neural network function can be represented as $net(x)=g(xW^1+b^1)W^2+b^2$