文献阅读——Heterogeneous Graph Attention Networks for Semi-supervised Short Text Classification

文章标题

本篇文章的标题是:

Heterogeneous Graph Attention Networks for Semi-supervised Short Text Classification


文章动机

本篇文章解决的问题是:

在半监督场景下,如何解决少量带标签数据和大量的无标签数据相结合在一起的窘境,这时带来的问题有:短文本的稀疏性少量的带标签数据不能提供充分的knowledge信息。这些问题就使得我们需要使用具有更加丰富表征信息的文本表示方法以及使用更加高效的文本特征提取方法。来解决上面的半监督场景下短文本分类任务带来的挑战。

因此文中提到了它所要描述的短文本分类模型——基于图神经网络的异构图注意力网络(HGAT)+异构信息网络(HIN)的短文本分类模型,这种半监督的短文本分类模型主要是分为两个模块:

  1. 一个模块是一个灵活的“异构信息网络”框架,这个网络将这个网络将整合各种类型的额外数据信息,并且捕捉他们之间的联系,从而解决语义稀疏性问题。
  2. 第二个模块是,HGAT——异构图注意力网络,这个网络的功能是将上一个模块中的HIN中整合而来的信息进行嵌入从而实现短文本分类任务,从而通过两种不同水平的注意力机制——一个是结点层次、一个是分支层次的注意力机制,从而获取同一分支不同邻接节点相对于当前节点的重要性(这种方法的目的是为了减少噪声数据的权重)以及不同的分支信息类型相对于当前结点的重要性。

以前方法的缺陷

  1. 文中在Related work中提到的点:传统的文本分类、基于深度学习的文本分类、半监督文本分类

  2. 首先,提到的是传统的文本分类方法,这种方法纵然发展到极致,但是这种分类方法终究还是要依赖于先验知识,从而才能实现后期的文本分类任务。

  3. 第二个提到的是深度神经网络的文本分类方法,这种方法虽然摆脱了在传统的分类方法中有关于特征工程对于手动特征构建的需求,但是,这种方法也是没有摆脱对于已标签数据依赖问题。

  4. 第三个提到的是半监督的文本分类方法,这种方法使用了少量的带标记数据,以及大量的无标记数据信息。半监督文本分类方法主要分成两种类型:一种是潜在变量模型;还有一种是基于嵌入的模型。

    1. 前者主要是拓展topic model的方法,通过用户提供的种子信息,然后基于后验的类别主题分布来推断当前的文档对应的文本标签。
    2. 后者使用的方法是将文档和label转换到embedding space中,从而实现为某一个document分配确定的label。

    但是这种方法的缺陷就是没有使用注意力机制来获取重要的的信息。


本文中的Method

对于本文中提到的基于异构图神经网络的注意力网络的方法。这种方法包含两个部分:

  1. 第一个部分是HIN(异构信息网络),这种网络是整合不同类型的额外信息到short text中,同时还可以捕捉到short texts和这些被添加进来的信息之间的联系信息。

  2. 第二步部分是HGAT(异构图注意力网络),这种网络将上面的一个层次中的获得的HIN整合好的short text输入到这个网络中,这个网络使用两种不同的注意力机制来获取不同层次信息。首先是不同邻接节点的重要性,从而可以减少噪声数据的权重;其次是不同结点中蕴含信息的重要性。

  3. HIN:

    1. 文中在这个部分首先是提到如何使用异构信息网络构建一个信息丰富的short text表示,这里是结合了额外的信息并且捕捉了丰富的短文本和这些额外信息之间的联系,将这些信息都放入模型中构建short text,这样可以有效的缓解短文本的稀疏性特征。
    2. 文中构建了一个HIN结构图来表示这个HIN模型的结构。这个结构由两个部分构成,分别是:结点集 V V V,同时这个结点集包含了三个部分short text(即document)集合topic集合实体集合;第二个部分是边集合ε,这个边集合表示的是各个结点之间的联系。
    3. 实现步骤是:
      1. 使用LDA模型来挖掘潜在的topic 集合 T T T,其中的每一个topic t i = ( θ 1 , θ 2 , . . . , θ w ) t_i=(θ_1,θ_2,...,θ_w) ti=θ1,θ2
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值