我们基于单词共现和文档单词关系为语料库构建单个文本图,然后为语料库学习文本图卷积网络(Text GCN)
我们的 Text GCN 使用单词和文档的 one-hot 表示进行初始化,然后在已知文档类标签的监督下共同学习单词和文档的嵌入。
Introduction
这些深度学习模型可以很好地捕捉局部连续单词序列中的语义和句法信息,但可能会忽略携带不连续和长的语料库中的全局单词共现。距离语义(Peng et al. 2018)。
图神经网络在被认为具有丰富关系结构的任务中非常有效,并且可以在图嵌入中保留图的全局结构信息。
我们从整个语料库构建一个大图,其中包含作为节点的单词和文档。 我们使用图卷积网络 (GCN) (Kipf and Welling 2017) 对图进行建模,这是一种简单有效的图神经网络,可捕获高阶邻域信息。 两个词节点之间的边是由词的共现信息构成的,词节点和文档节点之间的边是由词频和词的文档频率构成的。然后我们将文本分类问题转化为节点分类问题。 该方法可以用小部分标记文档实现强大的分类性能,并学习可解释的单词和文档节点嵌入。
主要贡献:
- 我们提出了一种用于文本分类的新型图神经网络方法
- 几个基准数据集的结果表明,我们的方法优于最先进的文本分类方法,无需使用预训练的词嵌入或外部知识。我们的方法还自动学习预测词和文档嵌入。
Related work
基于词嵌入模型
我们的工作与这些方法相关,主要区别在于这些方法在学习词嵌入之后构建文本表示,而我们同时学习词和文档嵌入以进行文本分类。

最低0.47元/天 解锁文章
1811

被折叠的 条评论
为什么被折叠?



