Structured Sequence Modeling With Graph Convolutional Recurrent Networks

最新推荐文章于 2023-08-10 09:31:59 发布

zzx3163967592

最新推荐文章于 2023-08-10 09:31:59 发布

阅读量2.9k

点赞数 2

https://davidham3.github.io/blog/2018/07/23/structured-sequence-modeling-with-graph-convolutional-recurrent-networks/

Structured Sequence Modeling With Graph Convolutional Recurrent Networks

ICLR 2017(reject)，两个模型，第一个是将数据扔到Defferrard的图卷积里面，然后将输出扔到LSTM里面。第二个模型是将RNN中的矩阵乘法换成了图卷积操作，最后对动态的mnist进行了识别。原文链接：Structured Sequence Modeling With Graph Convolutional Recurrent Networks

摘要

GCRN(Graph Convolutional Recurrent Network)，一个可以预测结构化序列数据的深度学习模型。GCRN是传统的循环神经网络的在任意的图结构上的一种泛化形式。这样的结构化数据可以表示成视频中的一系列帧，检测器组成的网络监测到的时空监测值，或是用于自然语言建模的词网中的随机游走。我们提出的模型合并了图上的CNN来辨识空间结构，RNN寻找动态模型。我们研究了两种GCRN，对Penn Treebank数据集进行建模。实验显示同时挖掘图的空间与动态信息可以同时提升precision和学习速度。

1 Introduction

很多工作，Donahue et al. 2015; Karpathy & Fei-Fei 2015; Vinyals et al. 2015，利用CNN和RNN的组合来挖掘时空规律性。这些模型那个处理时间变化的视觉输入来做变长的预测。这些网络架构由视觉特征提取的CNN，和一个在CNN后面，用于序列学习的RNN组成。这样的架构成功地用于视频活动识别，图像注释生成以及视频描述。

最近，大家开始对时空序列建模时融合CNN和RNN感兴趣。受到语言模型的启发，Ranzato et al. 2014提出了通过发现时空相关性的能表示复杂变形和动作模式的模型。他们的实验表明在通过quantizing the image patches获得到的visual words上，使用RNN建模，可以很好的预测视频的下一帧以及中间帧。他们的表现最好的模型是recursive CNN(rCNN)，对输入和状态同时使用卷积。Shi et al. 2015之后提出了卷积LSTM(convLSTM)，一个使用2D卷积利用输入数据的空间相关性，用于时空序列建模的RNN模型。他们成功的对降雨临近预报的雷达回波图的演化进行了预测。

很多重要问题中，空间结构不是简单的网格状。气象站就不是网格状。而且空间结构不一定是空间上的，如社交网络或生物网络。最后，Mikolov et al. 2013等人认为，句子可以解释成在词网上的随机游走，使得我们转向了分析图结构的句子建模问题。

我们的工作利用了近期的模型——Defferrard et al. 2016; Ranzato et al. 2014; Shi et al. 2015——来设计GCRN模型对时间变化的图结构数据建模和预测。核心思想是融合图结构上的CNN和RNN来同时辨识空间结构和动态模式。图1给出了GCRN的架构。

Figure1

2 Preliminaries

2.1 Structured Sequence Modeling

序列建模是给定前JJ个观测值，对未来最可能的长度为KK的序列进行预测：

x^t+1,…,x^t+K=argmaxxt+1,…,xt+KP(xt+1,…,xt+K∣xt−J+1,…,xt),(1)(1)x^t+1,…,x^t+K=argmaxxt+1,…,xt+K⁡P(xt+1,…,xt+K∣xt−J+1,…,xt),

xt∈Dxt∈D是时间tt的观测值，DD表示观测到的特征的域。原型应用是n−gramn−gram模型(n=J+1)(n=J+1)，P(xt+1∣xt−J+1,…,xt)P(xt+1∣xt−J+1,…,xt)对在句子中给定过去JJ个词时xt+1xt+1出现的概率进行建模。

我们感兴趣的是特别的结构化的句子，也就是句子中xtxt的特征不是相互独立的，而是有着两两相连的关系。这样的关系广义上通过带权图建模。

xtxt可以看作是一个图信号，也就是一个定义在无向带权图G=(V,ε,A)G=(V,ε,A)，其中VV是|V|=n|V|=n个顶点的有限集，εε是边集，A∈Rn×nA∈Rn×n是带权邻接矩阵，编码了两个顶点之间的连接权重。定义在图的顶点上的信号xt:V→Rdxxt:V→Rdx可以当作是一个矩阵xt∈Rn×dxxt∈Rn×dx，列ii是dxdx维向量，表示xtxt在第ii个顶点的值。尽管自由变量的数量在长度为KK的结构化序列中本质上是O(nKdxK)O(nKdxK)，我们仍然试图去挖掘可能的预测结果的空间结构以减少维度，来使这些问题变得容易解决。

2.2 Long Short-Term Memory

防止梯度过快消失，由Hochreiter & Schmidhuber 1997发明的一种RNN，LSTM。这个模型已经被证明在各种序列建模任务中，对长期依赖关系是稳定且强劲的模型(Graves, 2013; Srivastava et al., 2015; Sutskever et al., 2014)。全连接LSTM(FC-LSTM)可以看作是一个多变量版本的LSTM，其中xt∈Rdxxt∈Rxd是输入，ht∈[−1,1]dhht∈[−1,1]dh是细胞状态，ct∈Rdhct∈Rdh是隐藏状态，他们都是向量。我们使用Graves 2013的FC-LSTM：

i=σ(Wxixt+Whiht−1+wci⊙ct−1+bi),f=σ(Wxfxt+Whfht−1+wcf⊙ct−1+bf),ct=ft⊙ct−1+it⊙tanh(Wxcxt+Whcht−1+bc),o=σ(Wxoxt+Whoht−1+wco⊙ct+bo),ht=o⊙tanh(ct),(2)(2)i=σ(Wxixt+Whiht−1+wci⊙ct−1+bi),f=σ(Wxfxt+Whfht−1+wcf⊙ct−1+bf),ct=ft⊙ct−1+it⊙tanh(Wxcxt+Whcht−1+bc),o=σ(Wxoxt+Whoht−1+wco⊙ct+bo),ht=o⊙tanh(ct),

其中⊙⊙表示Hadamard product，σ(⋅)σ(⋅)表示sigmoid function σ(x)=1/(1+e−x)σ(x)=1/(1+e−x)，i,f,o∈[0,1]dhi,f,o∈[0,1]dh是输入门，遗忘门，输出门。权重Wx⋅∈Rdh×dxWx⋅∈Rdh×dx，Wh⋅∈Rdh×dhWh⋅∈Rdh×dh，wc⋅∈Rdhwc⋅∈Rdh，偏置bi,bf,bc,bo∈Rdhbi,bf,bc,bo∈Rdh是模型参数。这个模型之所以称为全连接是因为Wx⋅Wx⋅和Wh⋅Wh⋅与xx和hh所有分量进行线性组合。由Gers & Schmidhuber 2000引入可选的peephole connections wc⋅⊙ctwc⋅⊙ct，在某些特定任务上可以提升性能。

2.3 Convolutional Neural Networks On Graphs

Defferrard et al., 2016选择了谱上的卷积操作：

y=gθ∗Gx=gθ(L)x=gθ(UΛUT)x=Ugθ(Λ)UTx∈Rn×dx,(3)(3)y=gθ∗Gx=gθ(L)x=gθ(UΛUT)x=Ugθ(Λ)UTx∈Rn×dx,

对于归一化的拉普拉斯矩阵L=In−D−1/2AD−1/2=UΛUT∈Rn×nL=In−D−1/2AD−1/2=UΛUT∈Rn×n来说，U∈Rn×nU∈Rn×n是矩阵的特征向量，Λ∈Rn×nΛ∈Rn×n是特征值的对角矩阵。式3的时间复杂度很高，因为UU的乘法的时间复杂度是O(n2)O(n2)。此外，计算LL的特征值分解对于大的图来说很慢。Defferrard et al., 2016使用切比雪夫多项式：

gθ(Λ)=∑k=0K−1θkTk(Λ~),(4)(4)gθ(Λ)=∑k=0K−1θkTk(Λ~),

参数θ∈RKθ∈RK是切比雪夫系数的向量，Tk(Λ~)∈Rn×nTk(Λ~)∈Rn×n是切比雪夫多项式的k阶项在Λ~=2Λ/λmax−InΛ~=2Λ/λmax−In的值。图卷积操作可以写为：

y=gθ∗Gx=gθ(L)x=∑k=0K−1θkTk(L~)x,(5)(5)y=gθ∗Gx=gθ(L)x=∑k=0K−1θkTk(L~)x,

T0=1T0=1，T1=xT1=x，Tk(x)=2xTk−1(x)−Tk−2(x)Tk(x)=2xTk−1(x)−Tk−2(x)，时间复杂度是O(K|ε|)O(K|ε|)，也就是和边数相关。这个图卷积是KK阶局部化的。

Shi et al. 2015提出了针对常规网格结构的序列的模型，可以看作是图是图像网格且顶点有序的特殊情况。他们的模型本质上是FC-LSTM，WW的乘法替换为卷积核WW：

i=σ(Wxi∗xt+Whi∗ht−1+wci⊙ct−1+bi),f=σ(Wxf∗xt+Whf∗ht−1+wcf⊙ct−1+bf),ct=ft⊙ct−1+it⊙tanh(Wxc∗xt+Whc∗ht−1+bc),o=σ(Wxo∗xt+Who∗ht−1+wco⊙ct+bo),ht=o⊙tanh(ct),(6)(6)i=σ(Wxi∗xt+Whi∗ht−1+wci⊙ct−1+bi),f=σ(Wxf∗xt+Whf∗ht−1+wcf⊙ct−1+bf),ct=ft⊙ct−1+it⊙tanh(Wxc∗xt+Whc∗ht−1+bc),o=σ(Wxo∗xt+Who∗ht−1+wco⊙ct+bo),ht=o⊙tanh(ct),

∗∗表示一组卷积核的2D卷积。在他们的设定中xt∈Rnr×nc×dxxt∈Rnr×nc×dx是一个动态系统中，时间tt的dxdx的观测值，这个动态系统建立在一个表示为nrnr行ncnc列的空间区域上。模型有着空间分布的隐藏核细胞状态，大小是dhdh，由张量ctct体现，ht∈Rnr×nc×dhht∈Rnr×nc×dh。卷积核Wh⋅∈Rm×m×dh×dhWh⋅∈Rm×m×dh×dh和Wx⋅∈Rm×m×dh×dxWx⋅∈Rm×m×dh×dx的尺寸mm决定了参数的数量，与网格大小nr×ncnr×nc无关。更早一点，Ranzato et al. 2014提出了相似的RNN变体，使用卷积层而不是全连接层。时间tt的隐藏状态：

ht=tanh(σ(Wx2∗σ(Wx1∗xt))+σ(Wh∗ht−1)),(7)(7)ht=tanh(σ(Wx2∗σ(Wx1∗xt))+σ(Wh∗ht−1)),

卷积核Wh∈Rdh×dhWh∈Rdh×dh受限到1×11×1的大小。

观察到自然语言表示出语法性质，自然的将词融入短语中，Tai et al. 2015提出了一个处理树结构的模型，每个LSTM可以获取他们的孩子的状态。他们在semantic relatedness and sentiment classification上获得了state-of-the-art的结果。Liang et al. 2016在之后提出了在图上的变体。他们复杂的网络结构在4个数据集上获得了semantic object parsing的state-of-the-art结果。这些模型中，状态通过一个可训练的权重矩阵的带权加和从邻居上聚集。然而这些权重并不在图上共享，否则需要对顶点排序，就像其他图卷积的空间定义一样。此外，他们的公式受限于当前顶点的一阶邻居，给其他的邻居相同的权重。

受到如人体动作和物体交互等时空任务的启发，Jain et al 2016提出了一个方法将时空图看作是一个富RNN的混合，本质上是将一个RNN连接到每个顶点与每条边上。同样的，通信受限于直接连接的顶点与边。

和我们的工作最相关的模型可能是Li et al 2015提出的模型，在program verification上表现出了最好的结果。尽管他们使用Scarselli et al. 2009提出的GNN，以迭代的步骤传播顶点的表示，直到收敛，我们使用的是Defferrard et al. 2016提出的GCN在顶点间扩散信息。尽管他们的动机和我们很不一样，这些模型的关联是使用KK阶多项式定义的谱滤波器可以实现成一个KK层的GNN。

4 Proposed GCRN Models

我们提出了两种GCRN架构

Model 1.

xCNNt=CNNG(xt)i=σ(WxixCNNt+Whiht−1+wci⊙ct−1+bi),f=σ(WxfxCNNt+Whfht−1+wcf⊙ct−1+bf),ct=ft⊙ct−1+it⊙tanh(WxcxCNNt+Whcht−1+bc),o=σ(WxoxCNNt+Whoht−1+wco⊙ct+bo),ht=o⊙tanh(ct).(8)(8)xtCNN=CNNG(xt)i=σ(WxixtCNN+Whiht−1+wci⊙ct−1+bi),f=σ(WxfxtCNN+Whfht−1+wcf⊙ct−1+bf),ct=ft⊙ct−1+it⊙tanh(WxcxtCNN+Whcht−1+bc),o=σ(WxoxtCNN+Whoht−1+wco⊙ct+bo),ht=o⊙tanh(ct).

我们简单地写成xCNNt=WCNN∗GxtxtCNN=WCNN∗Gxt，其中WCNN∈RK×dx×dxWCNN∈RK×dx×dx是切比雪夫系数。Peepholes由wc⋅∈Rn×dhwc⋅∈Rn×dh控制。这样的架构可能足以捕获数据的分布，通过挖掘局部静止性以及性质的组合性，还有动态属性。

Model 2.

i=σ(Wxi∗Gxt+Whi∗Ght−1+wci⊙ct−1+bi),f=σ(Wxf∗Gxt+Whf∗Ght−1+wcf⊙ct−1+bf),ct=ft⊙ct−1+it⊙tanh(Wxc∗Gxt+Whc∗Ght−1+bc),o=σ(Wxo∗Gxt+Who∗Ght−1+wco⊙ct+bo),ht=o⊙tanh(ct),(9)(9)i=σ(Wxi∗Gxt+Whi∗Ght−1+wci⊙ct−1+bi),f=σ(Wxf∗Gxt+Whf∗Ght−1+wcf⊙ct−1+bf),ct=ft⊙ct−1+it⊙tanh(Wxc∗Gxt+Whc∗Ght−1+bc),o=σ(Wxo∗Gxt+Who∗Ght−1+wco⊙ct+bo),ht=o⊙tanh(ct),

图卷积核是切比雪夫系数Wh⋅∈RK×dh×dhWh⋅∈RK×dh×dh，Wx⋅∈RK×dh×dxWx⋅∈RK×dh×dx决定了参数的数目，与顶点数nn无关。
这种RNN和CNN的混合，不限于LSTM。普通的RNN ht=tanh(Wxxt+Whht−1)ht=tanh(Wxxt+Whht−1)可以写为：

ht=tanh(Wx∗Gxt+Wh∗Ght−1),(10)(10)ht=tanh(Wx∗Gxt+Wh∗Ght−1),

GRU的版本可以写为：

z=σ(Wxz∗Gxt+Whz∗Ght−1),r=σ(Wxr∗Gxt+Whr∗Ght−1),h~=tanh(Wxh∗Gxt+Whh∗G(r⊙ht−1)),ht=z⊙ht−1+(1−z)⊙h~.(11)(11)z=σ(Wxz∗Gxt+Whz∗Ght−1),r=σ(Wxr∗Gxt+Whr∗Ght−1),h~=tanh(Wxh∗Gxt+Whh∗G(r⊙ht−1)),ht=z⊙ht−1+(1−z)⊙h~.