论文阅读总结（Graph Convolutional Networks for Text Classification）

最新推荐文章于 2024-06-19 21:03:41 发布

Mr.琛

最新推荐文章于 2024-06-19 21:03:41 发布

阅读量2k

点赞数 4

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_44756457/article/details/103943454

版权

机器学习专栏收录该内容

7 篇文章 2 订阅

订阅专栏

Graph Convolutional Networks for Text Classification（用于文本分类的图卷积网络）

论文：https://arxiv.org/abs/1809.05679v1

这篇论文将Kipf和Welling提出的GCN网络用于文本分类，是一个比较新颖的尝试并取得了较好的效果。
Kipf和Welling的GCN论文：https://arxiv.org/abs/1609.02907

GCN的论文阅读总结：论文阅读总结（SEMI-SUPERVIED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS）

摘要：
作者介绍了其Text GCN的方法，作者在语料库中建图，其建图方式是：词节点与词节点之间连边，同时词节点与文档节点之间也连边，文档节点之间不连边，这样就构成了一个异构图。（词节点和文档节点都使用one-hot representation）
这个模型利用了之前其他模型没有考虑到的全局词共现信息，在较少训练数据时体现了较好的鲁棒性。

Introduction
NLP中处理文本分类已有较多模型，如CNN,RNN, LSTM （special RNN）等，这些模型的共同点是在局部连续的词序列中较好地捕获到词义信息，但可能会忽略具有非连续性和长距离语义的语料库中的全局词共现。
然后，作者提出了他们的Text GCN模型（词和文档共同作为节点，词节点之间利用词共现确定边权，词和文档节点之间通过词频-逆文档频率指数（TF-IDF）确定边权），建文本分类问题转化成了图中的节点分类问题。

Related Work
作者首先对比了传统的文本分类模型（主要基于词袋模型[bag-of-words]），得出了Text GCN的一个对比优势：能够自动学习作为node embedding 的文本表示。
然后对比了深度学习的文本分类模型（CNN,RNN,LSTM），之前的这些模型主要集中在局部连续词序列上，而没有明确使用语料库中的全局词共现信息。

Method
在此部分作者阐述了其Text gcn的模型组成及工作原理。
1.首先作者引进了Kipf的GCN model（kipf的gcn的论文链接上面贴出来了，这里就不详讲了）。
（A是图的邻接矩阵，A~是其自环，D是其度矩阵，W是可训练权重矩阵，X是节点的特征矩阵）
在这里插入图片描述
2.基于GCN，作者提出了Text GCN model
（异构图中黑色粗的线连的是文档–词的边，灰色细的线连的是词–词的边，O开头的是文档，R(x)指的x的embedding）
作者设置的节点特征矩阵X是一个单位矩阵I（因为是用one-hot representation），然后对图的邻接矩阵进行了权值定义（词–词之间利用词共现作为边权指标，词–文档节点之间利用TF-IDF的值确定权值），边的权值的计算公式如下：
在这里插入图片描述词–词边权通过PMI确定（如上），其中共现通过滑动窗口在文档中滑动来确定。#W（i，j）指节点i,j共同出现的滑动窗口数，#W(i)指节点i出现的滑动窗口数，#W是滑动窗口总数。
这样的公式的话PMI其实会有负数（当log中的值为0至1之间时）。
作者仅对PMI为正的词节点之间建边（因为如果PMI为负数，log中范围即为0~1，移项开来，即p(i,j)<p(i)*p(j)，通过概率统计的角度，即将它们联合起来看的概率小于它们看成相互独立的概率，及将它们视为无关可靠性更好）。
然后词–文档之间的边权就是通过TF-IDF确定。
TF-IDF(term frequency–inverse document frequency，词频和逆文档频率指数)，这是一种统计和数据挖掘的常用方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。
在这里插入图片描述
确定完以上参数之后，作者就提出了网络的模型结构。

（这与kipf的GCN基本类似）两层gcn的模型。
第一层：
input的node feature矩阵X作为激活矩阵，及A~和可训练权重矩阵（同GCN原理），采用Relu作为激活函数。
第二层：
Relu完得到的(ReLU(A~XW0))整体作为激活矩阵进入第二层，同第一层原理类似，用到A ~和可训练权重矩阵W1，这层的激活函数设为softmax。
采用交叉熵损失函数评判loss值：
在这里插入图片描述
两层的GCN允许信息通过最多两步的节点进行传递，所以没有文档–文档之间连边也可以通过GCN之间的信息传递得到。

Experiment
作者用Text GCN和多个模型进行了对比实验（TF-IDF+LR, CNN, LSTM, Bi-LSTM, PV-DBOW, PV-DM, PTE, fastText, SWEM, LEAM,Graph-CNN-C,Graph-CNN-S,Graph-CNN-F）

采用了5种较出名的数据集（20-Newsgroups (20NG), Ohsumed, R52 and R8 of Reuters 21578 and Movie Review (MR)）
在这里插入图片描述

超参数的设置：
第一个卷积层的embedding size设置为200；
滑动窗口的大小设置为20（作者尝试更改过大小，发现几乎没有什么变化）；
学习率设置为0.02，dropout率给了0.5
L2 loss weight 设为0，然后从训练集随机抽取了10%的数据作为测试集。
同kipf的GCN训练参数一样，作者采用Adam的方式训练了200个epochs。
对于其他对比实验的模型，采用预训练的词嵌入，300dimensional的GloVe词嵌入。

分类效果对比：
在这里插入图片描述可以看出对于前4个数据集Text GCN都具有最好的accuracy，而对于MR数据集Text GCN则没有特别好的效果。

作者总结了Text GCN的accuracy较好的原因：
（1）Text GCN的建图方式使得文本图可以捕获到文档–词的关系和全局的词–词的关系；
（2）由于GCN结构的拉普拉斯平滑性，文档节点的信息可以通过一阶邻接词节点进行传递，这样的话词节点就可以收集较为全面的文本节点信息，具有充当文本图中的桥梁的作用，是标签节点的信息能够传递到整个图。

Text GCN在MR数据集发挥效果不佳的原因：
（1）GCN的网络结构使得词序被忽略了（而这在情感分析中是较为重要的）；
（2）MR数据集较小，它的边数比其他文本图少，这就限制了节点之间的信息传递。

接下来，作者还分别做了滑动窗口数量的大小的变化，embedding dimension的变化，有标记的数据的大小对实验效果的影响，t-SNE对比几个模型的document embedding和word embedding的直观效果。

在这里插入图片描述

（这个图能很直观的看到GCN的优良效果）

总结和展望：
本文作者提出了做text classification的两层GCN网络模型并取得了较好的效果，是第一次将GCN结合文本分类的尝试，但是仍存在一些问题：GCN的网络结构无法快速生成embedding以及预测未知的文档文本。 这里作者提出了可能的解决方式有引入归纳机制，或fast GCN网络结构等。
同时，未来的展望方向有：可以引入注意力机制及发展无监督的text GCN框架。