文章目录
Graph Learning-Convolutional Networks. CVPR 2019. Bo Jiang, Ziyan Zhang, Doudou Lin, Jin Tang.
本文在切比雪夫一节近似模型上面提出改进,加入了图学习的过程,改变了传统使用固定图结构的思路,使得数据有了更好的图表示,即用节点之间的概率邻居来代替邻接矩阵。
论文动机
- 一般而言,我们提供给图CNN的数据要么具有已知的固有图结构,如社会网络,要么是我们人为建立的图。然而,对于图CNN中的半监督学习,很难评估从领域知识(例如,社会网络)获得的图或由人建立的图是否是最优的图表示。
- 此外,人类建立的图通常对局部噪声和离群点很敏感。
提出方法
针对半监督学习问题,提出了一种新的图学习-卷积网络(GLCN)算法。GLCN的主要思想是通过在统一的网络结构中同时集成图学习和图卷积,来学习最适合于图CNN的最优图表示,以用于半监督学习。
Graph Learning-Convolution Network (GLCN) which integrates both graph learning and graph convolution simultaneously in a unified network architecture and thus can learn an adaptive (or optimal) graph representation for GCN learning.
模型实现
1. 相关工作
T. N. Kipf and M. Welling. Semi-supervised classification with graph convolutional networks.arXiv preprint arXiv:1609.02907, 2016.
一阶近似切比雪夫多项式模型:
(3)式为交叉熵损失函数,
Y
i
j
Y_{ij}
Yij为样本真实标签。
2. Graph Learning-Convolutional Network
整个模型分为graph learning layer 和 graph convolution layer 两个部分。
2.1 Graph learning architecture(GL-layer)
给定一个输入
X
=
(
x
1
,
x
2
,
⋯
,
x
n
∈
R
p
×
n
)
X=(x_1, x_2, \cdots, x_n \in \mathbb{R}^{p\times n})
X=(x1,x2,⋯,xn∈Rp×n)要寻找一个非负函数
s
i
j
=
g
(
x
i
,
x
j
)
s_{ij}=g(x_i, x_j)
sij=g(xi,xj)来表示节点
x
i
x_i
xi和节点
x
j
x_j
xj的邻居结构关系,本文学习图结构
S
S
S如下,其中
a
∈
R
p
×
1
a\in \mathbb{R}^{p\times 1}
a∈Rp×1为权重向量:
可以看出,经过softmax操作后所学习到的图S满足如下属性,也就是概率的属性,代表节点
x
i
x_i
xi和节点
x
j
x_j
xj成为邻居节点的概率:
∑
j
=
1
n
S
i
j
=
1
,
S
i
j
≥
0
(5)
\sum_{j=1}^nS_{ij}=1,S_{ij}\geq0 \tag{5}
j=1∑nSij=1,Sij≥0(5)通过下面的损失函数来优化权重向量
a
a
a:
其中,
∥
x
i
−
x
j
∥
2
\Vert x_i -x_j\Vert_2
∥xi−xj∥2为欧氏距离,其越大
S
i
j
S_{ij}
Sij越小。
如果初始图结构A可以用,则可以将他融入到下面的学习式子里面:
还可以通过在学习损失函数中考虑正则项来合并A的信息:
由于当
p
p
p很大时,
a
a
a是一个很长的向量,会导致运算复杂度变得很高,为了解决这个问题,考虑将
a
a
a投影到低维子空间进行运算,即通过单层低维嵌入网络实现这一点,定义一个投影矩阵
P
∈
R
p
×
d
,
d
<
p
P \in \mathbb{R}^{p\times d},d<p
P∈Rp×d,d<p,从而新的学习式子为:
其中
A
A
A为初始图,若A不存在,则可以将设置
A
i
j
=
1
A_{ij}=1
Aij=1。
从而损失函数变为:
总结:提出的图学习(GL)结构可以仅基于数据特征X或进一步结合先前的初始图A和X来自动建立数据的邻域结构。图学习结构实际上提供了一种非线性函数
S
=
G
G
L
(
X
,
A
;
P
,
a
)
S=\mathcal{G}_{GL}(X,A;P,a)
S=GGL(X,A;P,a)来预测/计算节点对之间的邻域概率。
2.2 GLCN architecture(graph convolutional layers)
GLCN的目标是为GCN网络学习最优的图表示,并同时集成图学习和图卷积,以提高各自的性能。在卷积层,根据图学习层返回的自适应邻域图S进行分层传播规则,即
由于学习图
S
S
S满足
∑
j
S
i
j
=
1
,
S
i
j
≥
0
\sum_jS_{ij}=1, S_{ij}\geq0
∑jSij=1,Sij≥0,因此上式可以简化为:
对于半监督分类任务,将最终感知器层定义为:
通过最小化以下损失函数来联合训练整个网络参数
Θ
=
{
p
,
a
,
W
(
0
)
,
⋯
,
W
(
K
)
}
\Theta=\{p,a,W^{(0)},\cdots,W^{(K)}\}
Θ={p,a,W(0),⋯,W(K)}:这里,
L
G
L
\mathcal{L}_{GL}
LGL和
L
S
e
m
i
−
G
L
C
N
\mathcal{L}_{Semi-GLCN}
LSemi−GLCN分别在(11)和(3)式中被定义。
3. 整体模型
参考文献
原文地址: https://arxiv.org/pdf/1811.09971v1.pdf
参考博客: https://blog.csdn.net/qq_35111325/article/details/93378317