第一遍
标题及作者
摘要
- 基于语法依赖树的图卷积神经网络已经研究于ABSA领域,但是效果不太好。
- 因此,本文将语法依赖树和自动生成的特定类型图联系起来;文本提出一种门控机制,动态地组合词依赖图和自注意力网络学习的潜在图的信息。
- 本文模型可以补充潜在的语义依赖的有监督句法特征,在五个基准上的实验表明本文提出的潜在模型的有效性。
结论
- 通过研究各种用于结构归纳的神经网络,以及用于动态组合不同结构的新型门控机制,考虑用于方面情感分类的潜在图结构中。
- 与依赖树GCN基线对比,本文模型没有引入额外的模型参数,但是显著提升了基线的表示能力
介绍
- 目前ABSA任务引入图结构后,效果有较大提升,但是仍然存在两个问题:
- 依赖解析在带噪声的文本上(例如:tweets、blogs、review comments)具有相对较低的准确度
- treebank可能不是捕获方面词和意见词之间交互的最有效结构
- 为了研究三种结构归纳方法(自注意力结构、分散注意力、hard Kuma discrete structures),本文建立了一种统一的自注意力网络;此外,为了利用依赖语法的互惠性,进一步考虑了一种新的门控机制,用于在GCN编码过程中合并多个树结构。
相关工作
- Aspect-level sentiment analysis. 包括三个任务:方面术语情感分类(ATSC, aspect term sentiment classification),方面类别情感分类(ACSC, aspect category sentiment classification),方面词或者观点词抽取。本文侧重ATSC。
- Latent graph induction. 首先,我们考虑基于方面词情感的方法,学习同一句子中不同方面词汇的不同结构。其次,我们对不同的潜在图归纳方法进行了实证比较,并研究了依赖树的互补效应。
第二遍
3 模型
3.1 句子编码器
-
本文使用了一个BiLSTM编码器和一个BERT编码器,BERT编码器输入格式为: [ C L S ] w 1 w 2 . . . w n [ S E P ] w f w f + 1 . . . w e [CLS]w_1 w_2. . .w_n[SEP]w_fw_{f+1}. . .w_e [CLS]w1w2...wn[SEP]wfwf+1...we,其中 w 1 , . . , w n w_1,..,w_n w1,..,wn为输入序列, w f , . . . , w e w_f,...,w_e wf,...,we为评价对象词,需要注意的是BERT采用了子词(subword level)编码,最后使用汇聚操作,将输出表示为word-level表示( w i → c e i o w_i \rightarrow \mathbf{c}e_i^o wi→ceio)
-
为了让编码器学习到aspect-specific的表示,本文采用了基于距离的Aspect-mask的方法;评价对象词的m值为0,其他词距离评价对象词越近, m i m_i mi越大,评价对象词周围词对它的建模能力更强。 h i o = m i c e i o \mathbf{h}_i^o = m_i\mathbf{ce}_i^o hio=miceio
m i = { 1 − f − i n 1 ≤ i < f 0 f ≤ i ≤ e 1 − i − e n e < i ≤ n m_{i}= \begin{cases}1-\frac{f-i}{n} & 1 \leq i<f \\ 0 & f \leq i \leq e \\ 1-\frac{i-e}{n} & e<i \leq n\end{cases} mi=⎩⎪⎨⎪⎧1−nf−i01−ni−e1≤i<ff≤i≤ee<i≤n
3.2 依赖树表示
- 图的邻接矩阵
A d e p [ i , j ] = { 1 if i → j or i ← j 1 if i = j 0 otherwise \mathbf{A}_{d e p}[i, j]= \begin{cases}1 & \text { if } i \rightarrow j \text { or } i \leftarrow j \\ 1 & \text { if } i=j \\ 0 & \text { otherwise }\end{cases} Adep[i,j]=⎩⎪⎨⎪⎧110 if i→j or i←j if i=j otherwise
3.3 潜在图
-
本文通过三种方法建立潜在图 A l a t A_{lat} Alat,自注意力、分散自注意力、hard Kuma
-
自注意力网络
通过计算两个节点之间的相似性,将相似性分数用来表示两个节点之间的交互强度
A l a t = softmax ( ( Q W q ) ( K W k ) T d ) \mathbf{A}_{l a t}=\operatorname{softmax}\left(\frac{\left(\mathbf{Q W}_{q}\right)\left(\mathbf{K W}_{k}\right)^{T}}{\sqrt{d}}\right) Alat=softmax(d(QWq)(KWk)T)
Q , K 是 H 的 两 份 复 制 , W q , W k ∈ R d × d Q,K 是 H的两份复制,W_q,W_k \in \mathbb{R}^{d \times d} Q,K是H的两份复制,Wq,Wk∈Rd×d如果是多头注意力:
A l a t = ∑ i = 1 K A h e a d i K \mathbf{A}_{l a t} = \frac{\sum_{i=1}^K\mathbf{A}_{head}^i}{K} Alat=K∑i=1KAheadi -
分散自注意力
稠密的注意力权重会带来不相关内容的噪音,为了降低这种影响,将softmax函数替换为1.5-entmax
A lat = 1.5 -entmax ( ( Q W q ) ( K W k ) T d ) \mathbf{A}_{\text {lat }}=1.5 \text {-entmax }\left(\frac{\left(\mathbf{Q} \mathbf{W}_{q}\right)\left(\mathbf{K} \mathbf{W}_{k}\right)^{T}}{\sqrt{d}}\right) Alat =1.5-entmax (d(QWq)(KWk)T)
1.5 − e n t m a x ( x ) = a r g m a x p ∈ △ d p T x + H 1.5 T ( p ) 1.5-entmax(x) = argmax_{p\in \triangle ^d }\mathbf{p}^T \mathbf{x} + \mathbf{H}_{1.5}^T(\mathbf{p}) 1.5−entmax(x)=argmaxp∈△dpTx+H1.5T(p)H 1.5 T ( p ) = 1 1.5 × ( 1.5 − 1 ) ∑ j = 1 d ( p j − p j 1.5 ) \mathbf{H}_{1.5}^T(\mathbf{p}) = \frac{1}{1.5 \times (1.5 - 1 )}\sum_{j=1} ^d (p_j - p_j^{1.5}) H1.5T(p)=1.5×(1.5−1)1j=1∑d(pj−pj1.5)
-
Hard Kuma
这是一个通过采样的方法生成一个随机图
u ∼ U ( 0 , 1 ) , F K u m a − 1 ( u , a , b ) = ( 1 − ( 1 − u ) 1 / b ) 1 / a s 2 表 示 移 位 和 缩 放 样 本 操 作 z 通 过 一 个 h a r d − s i g m o i d 将 值 映 射 到 0 − 1 \begin{aligned}& u \sim \mathcal{U}(0,1), F_{Kuma}^{-1}(u,a,b) = (1-(1-u)^{1/b})^{1/a} \\ &s_2表示移位和缩放样本操作 \\ &z通过一个hard-sigmoid将值映射到0-1 \end {aligned} u∼U(0,1),FKuma−1(u,a,b)=(1−(1−u)1/b)1/as2表示移位和缩放样本操作z通过一个hard−sigmoid将值映射到0−1
H a = MHSAN ( H , H , H ) C a = LN ( FFN ( H a ) + H a ) s a = C a C a T n a = s a − mean ( s a ) std ( s a ) a = softplus ( n a ) A l a t ∼ HardKuma ( a , b , l , r ) \begin{aligned} \mathbf{H}_{a} &=\operatorname{MHSAN}(\mathbf{H}, \mathbf{H}, \mathbf{H}) \\ \mathbf{C}_{a} &=\operatorname{LN}\left(\operatorname{FFN}\left(\mathbf{H}_{a}\right)+\mathbf{H}_{a}\right) \\ \mathbf{s}_{a} &=\mathbf{C}_{a} \mathbf{C}_{a}^{T} \\ \mathbf{n}_{a} &=\frac{\mathbf{s}_{a}-\operatorname{mean}\left(\mathbf{s}_{a}\right)}{\operatorname{std}\left(\mathbf{s}_{a}\right)} \\ \mathbf{a} &=\operatorname{softplus}\left(\mathbf{n}_{a}\right) \\ \mathbf{A}_{l a t} & \sim \operatorname{HardKuma}(\mathbf{a}, \mathbf{b}, l, r) \end{aligned} HaCasanaaAlat=MHSAN(H,H,H)=LN(FFN(Ha)+Ha)=CaCaT=std(sa)sa−mean(sa)=softplus(na)∼HardKuma(a,b,l,r)
-
3.4 图卷积网络
图的组成:节点
V
=
{
v
i
}
i
=
1
n
V = \{v_i\}^n_{i=1}
V={vi}i=1n和边
A
∈
R
n
×
n
A \in \mathbb{R}^{n \times n}
A∈Rn×n,这里每个节点用
h
i
l
∈
R
d
\mathbf{h}_i^l \in \mathbb{R}^d
hil∈Rd表示,
H
l
=
[
h
1
l
,
h
2
l
,
.
.
.
,
h
n
l
]
∈
R
n
×
d
\mathbf{H}^l = [\mathbf{h}_1^l,\mathbf{h}_2^l,...,\mathbf{h}_n^l] \in \mathbb{R}^{n \times d}
Hl=[h1l,h2l,...,hnl]∈Rn×d ,
H
0
表
示
句
子
表
示
H
\mathbf{H}_0表示句子表示\mathbf{H}
H0表示句子表示H
H
l
=
ρ
(
A
H
l
−
1
W
l
+
b
l
)
\mathbf{H}^{l}=\rho\left(\mathbf{A H}^{l-1} \mathbf{W}^{l}+\mathbf{b}^{l}\right)
Hl=ρ(AHl−1Wl+bl)
3.5 门控结合
I d e p = A d e p H i n W I l a t = A l a t H i n W g = σ ( I l a t ) I c o m = ( 1 − λ g ) ⊙ I d e p + λ g ⊙ I l a t , H o u t = ρ ( I c o m + b ) , \begin{aligned} \mathbf{I}_{d e p} &=\mathbf{A}_{d e p} \mathbf{H}_{i n} \mathbf{W} \\ \mathbf{I}_{l a t} &=\mathbf{A}_{l a t} \mathbf{H}_{i n} \mathbf{W} \\ \mathbf{g} &=\sigma\left(\mathbf{I}_{l a t}\right) \\ \mathbf{I}_{c o m} &=(1-\lambda \mathbf{g}) \odot \mathbf{I}_{d e p}+\lambda \mathbf{g} \odot \mathbf{I}_{l a t}, \\ \mathbf{H}_{o u t} &=\rho\left(\mathbf{I}_{c o m}+\mathbf{b}\right), \end{aligned} IdepIlatgIcomHout=AdepHinW=AlatHinW=σ(Ilat)=(1−λg)⊙Idep+λg⊙Ilat,=ρ(Icom+b),
3.6 情感分类器
γ t = ∑ i = f e c e t 0 H i N α = softmax ( γ ) z = α C \begin{aligned} \gamma_{t} &=\sum_{i=f}^{e} \mathbf{c e}_{t}^{0} \mathbf{H}_{i}^{N} \\ \alpha &=\operatorname{softmax}(\gamma) \\ \mathbf{z} &=\alpha \mathbf{C} \end{aligned} γtαz=i=f∑ecet0HiN=softmax(γ)=αC
C = [ c e 1 0 , c e 2 0 , . . . , c e n 0 ] \mathbf{C} = [\mathbf{ce}_1^0,\mathbf{ce}_2^0,...,\mathbf{ce}_n^0] C=[ce10,ce20,...,cen0]
γ
t
表
示
第
t
个
上
下
文
词
和
评
价
对
象
词
的
注
意
力
分
数
\gamma_{t} 表示第t个上下文词和评价对象词的注意力分数
γt表示第t个上下文词和评价对象词的注意力分数
p
=
softmax
(
W
o
z
+
b
o
)
\mathbf{p} = \text{softmax}(\mathbf{W_o z + b_o})
p=softmax(Woz+bo)
3.7 训练
损失函数定义:
L ( θ ) = − ∑ i = 1 N ∑ c i , j log p y i , j + λ ′ 2 ∣ ∣ θ ∣ ∣ 2 L(\theta) = -\sum_{i=1}^N \sum_{c_{i,j}} \text{log} \mathbf{p}_{y_{i,j}} + \frac{ \lambda ^{'}}{2}||\theta||^2 L(θ)=−i=1∑Nci,j∑logpyi,j+2λ′∣∣θ∣∣2
y i , j 表 示 在 第 i 个 序 列 中 , 第 j 个 评 价 对 象 词 c i , j 的 标 签 y_{i,j}表示在第i个序列中,第j个评价对象词c_{i,j}的标签 yi,j表示在第i个序列中,第j个评价对象词ci,j的标签
4. 实验
设置
- 初始化词向量用300维的GloVe预训练结果
- 2个门控GCN块,head数:8,H维度:300
4.1 Development 结果
潜在图效果
λ \lambda λ的效果
4.2 主要结果
-
比较不同模型的结果
结果发现使用BERT的词向量表示+KumaGCN可以获得最佳表现
4.3 基于参数的迁移学习
-
通过在twitter数据集上训练一个源模型,并在餐厅数据集上对训练好的的模型进行测试。结果表明,诱导潜在结构对于捕获评价对象词和观点词具有很强的鲁棒性。
4.4 注意力距离
如图可以发现,KumaGCN模型对于距离更近的词,注意力分数更高,而一般来说评价对象词和观点词距离较近。
4.5 案例研究
- 比较不同模型对于
when i got there i sat up stairs where the atmospherewas cozy & theservicewas horrible !
的识别效果 - depGCN和kumaGCN模型都可以识别出
service
的感情极性,但是对于atmosphere
只有kumaGCN模型识别出来了(如图a) - 在图b中,发现两个观点词
cozy
和horrible
在DepGCN中也有连线,但是在潜在图中不存在这种情况,作者认为从这点可以认为,本文模型因此比DepGCN能够更好学习评价对象词和观点词之间的关系。
第三遍
小结:
- 从本文可以发现GCN在ABSA中任务任务中已经广泛应用,但是需要构造一个更加适合ABSA任务的图;本文提出一个潜在图来加强评价对象词和观点词之间的关系(潜在图中节点之间的权重,可以通过自注意力机制、分散自注意力机制以及HardKuma分布采样获得),然后使用门控机制,综合使用句法依赖树和潜在图(经过实验,取 λ = 0.2 \lambda = 0.2 λ=0.2)获得最佳效果。
- 经过发现,本文模型降低了相邻较近的词之间的注意力分数,作者认为这一点提升了该模型在ABSA任务中的效果。(个人认为,这一点还需要讨论)
- 本文模型还可以用于迁移学习。