将RCNN引入文本分类

最新推荐文章于 2024-06-12 09:49:40 发布

诚诚程程成

最新推荐文章于 2024-06-12 09:49:40 发布

阅读量457

点赞数

分类专栏： NLP 文章标签：分类深度学习

本文链接：https://blog.csdn.net/weixin_52268321/article/details/127792935

版权

NLP 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

论文：Recurrent Convolutional Neural Networks for Text Classification

RCNN基于CNN，采用周期循环神经网络，与传统的神经网络相比，会减少噪声；其使用一个最大池化层，捕获一句话中最关键的特征

1 对比

递归神经网络 Recursive Neural Network (RecursiveNN)
递归神经网络其性能在很大程度上依赖于文本树的构建，并且构建文本树所需的时间复杂度至少是O(n^2)，当模型遇到长句子或文档时，太耗时。并且两个句子之间的关系很难用树形结构来表示。
因此，RecursiveNN 不适合对长句子或文档

循环神经网络 Recurrent Neural Network (RecurrentNN)
优点：时间复杂度 O(n)、更好地捕获上下文信息
缺点：其是一个有偏见的模型，如果使用此模型，后面的单词会比前面的单词更占主导地位。
因此，当它用于捕获整个文档的语义时，会降低有效性，因为关键词可能出现在任何位置

卷积神经网络 Convolutional Neural Network (CNN)
优点：无偏的模型（unbiased model），能够通过最大池化获得最重要的特征。与递归或递归神经网络相比，CNN 可以更好地捕捉文本的语义。并且CNN的时间复杂度也是O(n)。
缺点：其使用固定窗口，如果选小了容易造成关键信息的丢失；如果选大了，会造成巨大的参数空间

为了解决上面模型的缺陷，提出了本文的Recurrent Convolutional Neural Network (RCNN)。相比传统的神经网络，能学习更多的上下文信息，并更准确地表示文本的语义以进行文本分类。
优势：
1、时间复杂度： O(n)
2、使用双向循环结构：比传统的基于窗口的神经网络噪声要小，能够最大化地提取上下文信息
3、采用最大池化层：捕获关键特征，自动判断哪些特征在文本分类中起关键作用

2 模型

如下图是作者提出的模型框架：

在这里插入图片描述
输入的句子为 A sunset stroll along the South Bank affords an array of stunning vantage points ，它可以看成是由一系列单词（W1,W2…Wn）组成的。

2.1 Word Representation Learning

结合一个词和它的上下文来呈现一个词。
使用循环结构（双向循环神经网络）来捕获上下文
以 “A sunset stroll along the South Bank affords an array of stunning vantage points” 这句话为例分析，结合上图：
Cl(W7)表示了“Bank”这个词左侧的上下文语义信息（即“stroll along the South ”）
Cr(W7)表示了“Bank”这个词右侧的上下文语义信息（即“ affords an array …”）

循环结构可以在文本的向前扫描时获取所有的 Cl，在反向扫描时获取所有的 Cr。时间复杂度为O(n)。当我们获得了单词 Wi 的表示 Xi 后，我们将一个线性变换与 tanh 激活函数一起应用到 Xi，并将结果传递到下一层。

y是一个潜在的语义向量，每一个语义因素都将被分析，以确定代表文本的最有用的因素。

2.2 Text Representation Learning

上面部分是单词的表示，那么怎么来提取文本的特征表示呢？
作者在这里使用了CNN，当前面所有的单词表示 y 都计算出来以后，接上一个max-pooling层
池化层将不同长度的文本转换为固定长度的向量。使用池化层，我们可以捕获整个文本中的信息。
池化层的时间复杂度为 O(n)

我们模型的最后一部分是输出层，类似于传统的神经网络：y = wy + b

最后，将 softmax 函数应用于 y，它可以将输出数字转换为概率。

3 实验

数据集：

20Newsgroups1 This dataset contains messages from twenty newsgroups.We use the bydate version and select four major categories (comp,politics, rec, and religion) fol- lowed by Hingmire et al. (2013).
Fudan set2 The Fudan University document classification set is a Chinese document classification set that consists of 20 classes,including art, education, and energy.
ACL Anthology Network3 This dataset contains scien- tific documents published by the ACL and by related organi- zations. It is annotated by Post and Bergsma (2013) with the five most common native languages of the authors: English, Japanese, German, Chinese, and French.
Stanford Sentiment Treebank4 The dataset contains movie reviews parsed and labeled by Socher et al. (2013). The labels are Very Negative, Negative, Neutral, Positive, and Very Positive.

实验结果:
在这里插入图片描述