将RCNN引入文本分类

论文:Recurrent Convolutional Neural Networks for Text Classification

RCNN基于CNN,采用周期循环神经网络,与传统的神经网络相比,会减少噪声;其使用一个最大池化层,捕获一句话中最关键的特征

1 对比

递归神经网络 Recursive Neural Network (RecursiveNN)
递归神经网络其性能在很大程度上依赖于文本树的构建,并且构建文本树所需的时间复杂度至少是O(n^2),当模型遇到长句子或文档时,太耗时。并且两个句子之间的关系很难用树形结构来表示。
因此,RecursiveNN 不适合对长句子或文档

循环神经网络 Recurrent Neural Network (RecurrentNN)
优点:时间复杂度 O(n)、更好地捕获上下文信息
缺点:其是一个有偏见的模型,如果使用此模型,后面的单词会比前面的单词更占主导地位。
因此,当它用于捕获整个文档的语义时,会降低有效性,因为关键词可能出现在任何位置

卷积神经网络 Convolutional Neural Network (CNN)
优点:无偏的模型(unbiased model),能够通过最大池化获得最重要的特征。与递归或递归神经网络相比,CNN 可以更好地捕捉文本的语义。 并且CNN的时间复杂度也是O(n)。
缺点:其使用固定窗口,如果选小了容易造成关键信息的丢失;如果选大了,会造成巨大的参数空间

为了解决上面模型的缺陷,提出了本文的Recurrent Convolutional Neural Network (RCNN)。相比传统的神经网络,能学习更多的上下文信息,并更准确地表示文本的语义以进行文本分类。
优势:
1、时间复杂度: O(n)
2、使用双向循环结构:比传统的基于窗口的神经网络噪声要小,能够最大化地提取上下文信息
3、采用最大池化层:捕获关键特征,自动判断哪些特征在文本分类中起关键作用

2 模型

如下图是作者提出的模型框架:

在这里插入图片描述
输入的句子为 A sunset stroll along the South Bank affords an array of stunning vantage points ,它可以看成是由一系列单词(W1,W2…Wn)组成的。

2.1 Word Representation Learning

结合一个词和它的上下文来呈现一个词。
使用循环结构(双向循环神经网络)来捕获上下文
以 “A sunset stroll along the South Bank affords an array of stunning vantage points” 这句话为例分析,结合上图:
Cl(W7)表示了“Bank”这个词左侧的上下文语义信息(即“stroll along the South ”)
Cr(W7)表示了“Bank”这个词右侧的上下文语义信息(即“ affords an array …”)

循环结构可以在文本的向前扫描时获取所有的 Cl,在反向扫描时获取所有的 Cr。时间复杂度为O(n)。当我们获得了单词 Wi 的表示 Xi 后,我们将一个线性变换与 tanh 激活函数一起应用到 Xi,并将结果传递到下一层。

y是一个潜在的语义向量,每一个语义因素都将被分析,以确定代表文本的最有用的因素。

2.2 Text Representation Learning

上面部分是单词的表示,那么怎么来提取文本的特征表示呢?
作者在这里使用了CNN,当前面所有的单词表示 y 都计算出来以后,接上一个max-pooling层
池化层将不同长度的文本转换为固定长度的向量。使用池化层,我们可以捕获整个文本中的信息。
池化层的时间复杂度为 O(n)

我们模型的最后一部分是输出层,类似于传统的神经网络:y = wy + b

最后,将 softmax 函数应用于 y,它可以将输出数字转换为概率。

3 实验

数据集:

  • 20Newsgroups1 This dataset contains messages from twenty newsgroups.We use the bydate version and select four major categories (comp,politics, rec, and religion) fol- lowed by Hingmire et al. (2013).
  • Fudan set2 The Fudan University document classification set is a Chinese document classification set that consists of 20 classes,including art, education, and energy.
  • ACL Anthology Network3 This dataset contains scien- tific documents published by the ACL and by related organi- zations. It is annotated by Post and Bergsma (2013) with the five most common native languages of the authors: English, Japanese, German, Chinese, and French.
  • Stanford Sentiment Treebank4 The dataset contains movie reviews parsed and labeled by Socher et al. (2013). The labels are Very Negative, Negative, Neutral, Positive, and Very Positive.

实验结果:
在这里插入图片描述

作者将循环卷积神经网络引入文本分类。模型使用循环结构捕获上下文信息,并使用卷积神经网络构建文本表示。实验表明,RCNN模型使用四种不同的文本分类数据集优于 CNN 和 RecursiveNN。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值