TextGCN:使用图卷积网络进行文本分类,基于词共现和文档词关系为语料库构建一个单独的文本图,word和document的初始向量为one-hot表示。通过GCN的学习其嵌入表示,下游分类任务优于现有方法。
优势:图神经网络由于具有丰富的关系结构,能够在图嵌入中保存全局的结构信息。
GCN的方法不再赘述,主要讲述构图的方法,
以“O”开头的节点是文档节点,其他节点是单词节点。黑色粗体边是文档-单词边,灰色细边是单词-单词边。R(x)表示x的表示(embedding)。不同的颜色意味着不同的文档类(为了避免混乱,只显示了四个示例类)。
文档-词的边基于词在文档中的出现信息,使用TF-IDF作为边的权重。词-词的连边基于词的全局词共现信息。词共现信息使用一个固定大小的滑动窗口在语料库中滑动统计词共现信息,然后使用点互信息(PMI)计算两个词节点连线的权重。具体如下:
PMI值为正时,表示语料库中词汇的语义相关性较高,当PMI值为负时,表示语料库中词汇的语义相关性较低或不存在语义相关性。因此,我们只在PMI值为正的单词对之间添加边 。
构建完文本图后,我们将该图输入到一个简单的两层GCN中:
损失函数定义为所有标记文档的交叉熵误差:
尽管图中没有直接的文档-文档边,但两层GCN允许在对文档之间交换信息。在我们的初步实验中。我们发现双层GCN的性能优于单层GCN,而多层GCN并不能提高性能。