读论文——Inducing Target-Specific Latent Structures for Aspect Sentiment Classification(EMNLP2020)

第一遍

标题及作者

在这里插入图片描述

摘要

  1. 基于语法依赖树的图卷积神经网络已经研究于ABSA领域,但是效果不太好。
  2. 因此,本文将语法依赖树和自动生成的特定类型图联系起来;文本提出一种门控机制,动态地组合词依赖图和自注意力网络学习的潜在图的信息。
  3. 本文模型可以补充潜在的语义依赖的有监督句法特征,在五个基准上的实验表明本文提出的潜在模型的有效性。

结论

  1. 通过研究各种用于结构归纳的神经网络,以及用于动态组合不同结构的新型门控机制,考虑用于方面情感分类的潜在图结构中。
  2. 与依赖树GCN基线对比,本文模型没有引入额外的模型参数,但是显著提升了基线的表示能力

介绍

  1. 目前ABSA任务引入图结构后,效果有较大提升,但是仍然存在两个问题:
    1. 依赖解析在带噪声的文本上(例如:tweets、blogs、review comments)具有相对较低的准确度
    2. treebank可能不是捕获方面词和意见词之间交互的最有效结构
  2. 为了研究三种结构归纳方法(自注意力结构、分散注意力、hard Kuma discrete structures),本文建立了一种统一的自注意力网络;此外,为了利用依赖语法的互惠性,进一步考虑了一种新的门控机制,用于在GCN编码过程中合并多个树结构。

相关工作

  1. Aspect-level sentiment analysis. 包括三个任务:方面术语情感分类(ATSC, aspect term sentiment classification),方面类别情感分类(ACSC, aspect category sentiment classification),方面词或者观点词抽取。本文侧重ATSC。
  2. Latent graph induction. 首先,我们考虑基于方面词情感的方法,学习同一句子中不同方面词汇的不同结构。其次,我们对不同的潜在图归纳方法进行了实证比较,并研究了依赖树的互补效应。

第二遍

3 模型

在这里插入图片描述

3.1 句子编码器

  1. 本文使用了一个BiLSTM编码器和一个BERT编码器,BERT编码器输入格式为: [ C L S ] w 1 w 2 . . . w n [ S E P ] w f w f + 1 . . . w e [CLS]w_1 w_2. . .w_n[SEP]w_fw_{f+1}. . .w_e [CLS]w1w2...wn[SEP]wfwf+1...we,其中 w 1 , . . , w n w_1,..,w_n w1,..,wn为输入序列, w f , . . . , w e w_f,...,w_e wf,...,we为评价对象词,需要注意的是BERT采用了子词(subword level)编码,最后使用汇聚操作,将输出表示为word-level表示( w i → c e i o w_i \rightarrow \mathbf{c}e_i^o wiceio

  2. 为了让编码器学习到aspect-specific的表示,本文采用了基于距离的Aspect-mask的方法;评价对象词的m值为0,其他词距离评价对象词越近, m i m_i mi越大,评价对象词周围词对它的建模能力更强。 h i o = m i c e i o \mathbf{h}_i^o = m_i\mathbf{ce}_i^o hio=miceio
    m i = { 1 − f − i n 1 ≤ i < f 0 f ≤ i ≤ e 1 − i − e n e < i ≤ n m_{i}= \begin{cases}1-\frac{f-i}{n} & 1 \leq i<f \\ 0 & f \leq i \leq e \\ 1-\frac{i-e}{n} & e<i \leq n\end{cases} mi=1nfi01nie1i<ffiee<in

3.2 依赖树表示

  1. 图的邻接矩阵
    A d e p [ i , j ] = { 1  if  i → j  or  i ← j 1  if  i = j 0  otherwise  \mathbf{A}_{d e p}[i, j]= \begin{cases}1 & \text { if } i \rightarrow j \text { or } i \leftarrow j \\ 1 & \text { if } i=j \\ 0 & \text { otherwise }\end{cases} Adep[i,j]=110 if ij or ij if i=j otherwise 

3.3 潜在图

  1. 本文通过三种方法建立潜在图 A l a t A_{lat} Alat,自注意力、分散自注意力、hard Kuma

    1. 自注意力网络

      通过计算两个节点之间的相似性,将相似性分数用来表示两个节点之间的交互强度
      A l a t = softmax ⁡ ( ( Q W q ) ( K W k ) T d ) \mathbf{A}_{l a t}=\operatorname{softmax}\left(\frac{\left(\mathbf{Q W}_{q}\right)\left(\mathbf{K W}_{k}\right)^{T}}{\sqrt{d}}\right) Alat=softmax(d (QWq)(KWk)T)
      Q , K 是 H 的 两 份 复 制 , W q , W k ∈ R d × d Q,K 是 H的两份复制,W_q,W_k \in \mathbb{R}^{d \times d} Q,KHWq,WkRd×d

      如果是多头注意力:
      A l a t = ∑ i = 1 K A h e a d i K \mathbf{A}_{l a t} = \frac{\sum_{i=1}^K\mathbf{A}_{head}^i}{K} Alat=Ki=1KAheadi

    2. 分散自注意力

      稠密的注意力权重会带来不相关内容的噪音,为了降低这种影响,将softmax函数替换为1.5-entmax
      A lat  = 1.5 -entmax  ( ( Q W q ) ( K W k ) T d ) \mathbf{A}_{\text {lat }}=1.5 \text {-entmax }\left(\frac{\left(\mathbf{Q} \mathbf{W}_{q}\right)\left(\mathbf{K} \mathbf{W}_{k}\right)^{T}}{\sqrt{d}}\right) Alat =1.5-entmax (d (QWq)(KWk)T)
      1.5 − e n t m a x ( x ) = a r g m a x p ∈ △ d p T x + H 1.5 T ( p ) 1.5-entmax(x) = argmax_{p\in \triangle ^d }\mathbf{p}^T \mathbf{x} + \mathbf{H}_{1.5}^T(\mathbf{p}) 1.5entmax(x)=argmaxpdpTx+H1.5T(p)

      H 1.5 T ( p ) = 1 1.5 × ( 1.5 − 1 ) ∑ j = 1 d ( p j − p j 1.5 ) \mathbf{H}_{1.5}^T(\mathbf{p}) = \frac{1}{1.5 \times (1.5 - 1 )}\sum_{j=1} ^d (p_j - p_j^{1.5}) H1.5T(p)=1.5×(1.51)1j=1d(pjpj1.5)

    3. Hard Kuma

      这是一个通过采样的方法生成一个随机图

      在这里插入图片描述

      u ∼ U ( 0 , 1 ) , F K u m a − 1 ( u , a , b ) = ( 1 − ( 1 − u ) 1 / b ) 1 / a s 2 表 示 移 位 和 缩 放 样 本 操 作 z 通 过 一 个 h a r d − s i g m o i d 将 值 映 射 到 0 − 1 \begin{aligned}& u \sim \mathcal{U}(0,1), F_{Kuma}^{-1}(u,a,b) = (1-(1-u)^{1/b})^{1/a} \\ &s_2表示移位和缩放样本操作 \\ &z通过一个hard-sigmoid将值映射到0-1 \end {aligned} uU(0,1),FKuma1(u,a,b)=(1(1u)1/b)1/as2zhardsigmoid01
      H a = MHSAN ⁡ ( H , H , H ) C a = LN ⁡ ( FFN ⁡ ( H a ) + H a ) s a = C a C a T n a = s a − mean ⁡ ( s a ) std ⁡ ( s a ) a = softplus ⁡ ( n a ) A l a t ∼ HardKuma ⁡ ( a , b , l , r ) \begin{aligned} \mathbf{H}_{a} &=\operatorname{MHSAN}(\mathbf{H}, \mathbf{H}, \mathbf{H}) \\ \mathbf{C}_{a} &=\operatorname{LN}\left(\operatorname{FFN}\left(\mathbf{H}_{a}\right)+\mathbf{H}_{a}\right) \\ \mathbf{s}_{a} &=\mathbf{C}_{a} \mathbf{C}_{a}^{T} \\ \mathbf{n}_{a} &=\frac{\mathbf{s}_{a}-\operatorname{mean}\left(\mathbf{s}_{a}\right)}{\operatorname{std}\left(\mathbf{s}_{a}\right)} \\ \mathbf{a} &=\operatorname{softplus}\left(\mathbf{n}_{a}\right) \\ \mathbf{A}_{l a t} & \sim \operatorname{HardKuma}(\mathbf{a}, \mathbf{b}, l, r) \end{aligned} HaCasanaaAlat=MHSAN(H,H,H)=LN(FFN(Ha)+Ha)=CaCaT=std(sa)samean(sa)=softplus(na)HardKuma(a,b,l,r)

3.4 图卷积网络

图的组成:节点 V = { v i } i = 1 n V = \{v_i\}^n_{i=1} V={vi}i=1n和边 A ∈ R n × n A \in \mathbb{R}^{n \times n} ARn×n,这里每个节点用 h i l ∈ R d \mathbf{h}_i^l \in \mathbb{R}^d hilRd表示, H l = [ h 1 l , h 2 l , . . . , h n l ] ∈ R n × d \mathbf{H}^l = [\mathbf{h}_1^l,\mathbf{h}_2^l,...,\mathbf{h}_n^l] \in \mathbb{R}^{n \times d} Hl=[h1l,h2l,...,hnl]Rn×d , H 0 表 示 句 子 表 示 H \mathbf{H}_0表示句子表示\mathbf{H} H0H
H l = ρ ( A H l − 1 W l + b l ) \mathbf{H}^{l}=\rho\left(\mathbf{A H}^{l-1} \mathbf{W}^{l}+\mathbf{b}^{l}\right) Hl=ρ(AHl1Wl+bl)

3.5 门控结合

I d e p = A d e p H i n W I l a t = A l a t H i n W g = σ ( I l a t ) I c o m = ( 1 − λ g ) ⊙ I d e p + λ g ⊙ I l a t , H o u t = ρ ( I c o m + b ) , \begin{aligned} \mathbf{I}_{d e p} &=\mathbf{A}_{d e p} \mathbf{H}_{i n} \mathbf{W} \\ \mathbf{I}_{l a t} &=\mathbf{A}_{l a t} \mathbf{H}_{i n} \mathbf{W} \\ \mathbf{g} &=\sigma\left(\mathbf{I}_{l a t}\right) \\ \mathbf{I}_{c o m} &=(1-\lambda \mathbf{g}) \odot \mathbf{I}_{d e p}+\lambda \mathbf{g} \odot \mathbf{I}_{l a t}, \\ \mathbf{H}_{o u t} &=\rho\left(\mathbf{I}_{c o m}+\mathbf{b}\right), \end{aligned} IdepIlatgIcomHout=AdepHinW=AlatHinW=σ(Ilat)=(1λg)Idep+λgIlat,=ρ(Icom+b),

3.6 情感分类器

γ t = ∑ i = f e c e t 0 H i N α = softmax ⁡ ( γ ) z = α C \begin{aligned} \gamma_{t} &=\sum_{i=f}^{e} \mathbf{c e}_{t}^{0} \mathbf{H}_{i}^{N} \\ \alpha &=\operatorname{softmax}(\gamma) \\ \mathbf{z} &=\alpha \mathbf{C} \end{aligned} γtαz=i=fecet0HiN=softmax(γ)=αC

C = [ c e 1 0 , c e 2 0 , . . . , c e n 0 ] \mathbf{C} = [\mathbf{ce}_1^0,\mathbf{ce}_2^0,...,\mathbf{ce}_n^0] C=[ce10,ce20,...,cen0]

γ t 表 示 第 t 个 上 下 文 词 和 评 价 对 象 词 的 注 意 力 分 数 \gamma_{t} 表示第t个上下文词和评价对象词的注意力分数 γtt
p = softmax ( W o z + b o ) \mathbf{p} = \text{softmax}(\mathbf{W_o z + b_o}) p=softmax(Woz+bo)

3.7 训练

损失函数定义:

L ( θ ) = − ∑ i = 1 N ∑ c i , j log p y i , j + λ ′ 2 ∣ ∣ θ ∣ ∣ 2 L(\theta) = -\sum_{i=1}^N \sum_{c_{i,j}} \text{log} \mathbf{p}_{y_{i,j}} + \frac{ \lambda ^{'}}{2}||\theta||^2 L(θ)=i=1Nci,jlogpyi,j+2λθ2

y i , j 表 示 在 第 i 个 序 列 中 , 第 j 个 评 价 对 象 词 c i , j 的 标 签 y_{i,j}表示在第i个序列中,第j个评价对象词c_{i,j}的标签 yi,jijci,j

4. 实验

设置

  1. 初始化词向量用300维的GloVe预训练结果
  2. 2个门控GCN块,head数:8,H维度:300

4.1 Development 结果

潜在图效果

在这里插入图片描述

λ \lambda λ的效果

在这里插入图片描述

4.2 主要结果

  1. 比较不同模型的结果

    在这里插入图片描述

    在这里插入图片描述

    结果发现使用BERT的词向量表示+KumaGCN可以获得最佳表现

4.3 基于参数的迁移学习

  1. 通过在twitter数据集上训练一个源模型,并在餐厅数据集上对训练好的的模型进行测试。结果表明,诱导潜在结构对于捕获评价对象词和观点词具有很强的鲁棒性。

    在这里插入图片描述

4.4 注意力距离

在这里插入图片描述

如图可以发现,KumaGCN模型对于距离更近的词,注意力分数更高,而一般来说评价对象词和观点词距离较近。

4.5 案例研究

在这里插入图片描述

  1. 比较不同模型对于when i got there i sat up stairs where the atmospherewas cozy & theservicewas horrible !的识别效果
  2. depGCN和kumaGCN模型都可以识别出service的感情极性,但是对于atmosphere只有kumaGCN模型识别出来了(如图a)
  3. 在图b中,发现两个观点词cozyhorrible在DepGCN中也有连线,但是在潜在图中不存在这种情况,作者认为从这点可以认为,本文模型因此比DepGCN能够更好学习评价对象词和观点词之间的关系。

第三遍

小结:

  1. 从本文可以发现GCN在ABSA中任务任务中已经广泛应用,但是需要构造一个更加适合ABSA任务的图;本文提出一个潜在图来加强评价对象词和观点词之间的关系(潜在图中节点之间的权重,可以通过自注意力机制、分散自注意力机制以及HardKuma分布采样获得),然后使用门控机制,综合使用句法依赖树和潜在图(经过实验,取 λ = 0.2 \lambda = 0.2 λ=0.2)获得最佳效果。
  2. 经过发现,本文模型降低了相邻较近的词之间的注意力分数,作者认为这一点提升了该模型在ABSA任务中的效果。(个人认为,这一点还需要讨论)
  3. 本文模型还可以用于迁移学习。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值