论文阅读笔记:Incorporating Syntactic and Semantic Information in Word Embeddings using Graph Convolutional

Incorporating Syntactic and Semantic Information in Word Embeddings using Graph Convolutional Networks

author={Vashishth, Shikhar and Bhandari, Manik and Yadav, Prateek and Rai, Piyush and Bhattacharyya, Chiranjib and Talukdar, Partha},
journal={arXiv preprint arXiv:1809.04283},
year={2018}
[论文链接]

Highlight:

该文的方法旨在不扩展词汇量的前提下利用单词间的依存关系得到合适的嵌入。

  1. 提出了一种基于图卷积的学习单词嵌入的方法SynGCN。与以前的方法不同,SynGCN利用语法上下文来学习单词表示,而不增加词汇量大小。克服了词汇量爆炸的问题,并在几个内在和外在的任务上优于最先进的单词嵌入方法。
  2. 提出了SemGCN,一个用于整合不同语义知识(如同义词、反义词、下义词等)的框架。在学习到的单词嵌入中,不需要像以前的方法那样进行特定于关系的特殊处理。SynGCN和SemGCN的组合提供了最好的整体性能。
    (语法关系主要是一句话里面的主谓宾定状补,语义关系主要是词之间的同义词反义词上位词下位词等等。)

前期工作的缺点:

大多数基于分布假设的方法只对语料库中的每个单词使用顺序上下文。窗口大小的选择极大一部分决定了词向量的质量。使用基于依赖关系的上下文有助于缓解这个问题。然而,所有现有的基于句法上下文的方法严重扩大了词汇量,这将它们的可扩展性限制在一个大的语料库中。

背景

Graph Convolutional Networks (GCNs):[论文链接]
GCN不会将图形限制为树,并且已发现在捕获全局信息方面更有效。而且,由于它们不涉及难以并行化的递归操作,因此它们可提供实质性的加速,基于以上几种优势,该文模型使用GCN来实现。

两种图卷积网络

  • Syngcn的目标是根据语法学习更好的词嵌入,而semgcn的目标是有效处理不同的语义信息。对于syngcn,首先计算出语料库的依赖解析图,节点是词,边就是语法关系,然后定义图中的邻居为目标词的上下文,并将上下文的嵌入输入到图卷积网络中来预测目标词的嵌入。

对于一个给定的句子 s=(w1,w2,…,wn),使用斯坦福CoreNLP解析器提取它的依赖解析图(GS=(Vs,Es)。Vs={w1,w2,……,wn}和Es表示形式(wi,wj,lij)的标记有向依赖边,其中lij是wi到wj的依赖关系。
类似于Mikolov的连续单词袋(CBOW)模型,对于c大小的窗口,它将一个单词的上下文定义为Cwi={wi+j:−c≤j≤c,j!=0}对于c大小的窗口。Syngcn将上下文定义为图Gs中的邻居,即Cwi=N(wi)。然后将有向图卷积网络GCNs应用于依赖解析图Gs,将s中单词的上下文嵌入作为输入特征。因此,对于s中的每个单词wi,我们使用以下公式得到GCN的k层后的表示
在这里插入图片描述

SynGCN是CBOW模型的泛化
在这里插入图片描述

在这里插入图片描述

  • SemGCN同样把单词作为节点,但边表示它们来自不同来源的语义关系,一个重要的区别是,在计算邻居时,SemGCN会把目标词本身纳入考虑,因为此时的词嵌入已经包含了足够多的语义信息,现在只是基于语法信息做一些微调,因此不能差太多。
    SemGCN能够同时合并对称信息和非对称信息。与SynGCN不同,SemGCN在语料库级有向标记图上操作,单词作为节点,边表示来自不同来源的它们之间的语义关系。例如,在下图中,语义关系、超语义关系和同义关系一起在一个图中表示。对称信息是通过在两个方向上都包含一个有向边来处理的。给定语料库水平图G,训练过程类似于SynGCN,即预测词w基于它的邻居G.,我们保留语义编码在预训练嵌入通过初始化目标和上下文嵌入与给定的单词表示和保持目标嵌入固定在训练。
    SemGCN使用公式1来更新节点嵌入。
    在这里插入图片描述

在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值