GCN(图卷积神经网络)的简单理解

最近开始看GCN的论文,拜读了Thomas N. Kipf大佬的Semi-Supervised Classification with Graph Convolutional Networks,开始学习GCN之前我们需要有一些关于图的先验知识。

图是一种数据结构图是一种数据结构,由节点、边组成,两个节点之间的连接称为边,如社交网络、知识图、蛋白质作用网络等

同时拉普拉斯矩阵是一种表示图数据的有效方式

D 是度矩阵 (degree matrix) 
A 是邻接矩阵 (adjacency matrix)
拉普拉斯矩阵 L = D – A

     L进行归一化后为

     U是进行归一化时的特征向量,  是特征分解时由特征值组成的对角矩阵

为什么会有GCN出现??

CNN已经在图像任务上获得了巨大的成功,图像是一种排列规则的数据,可以用二维矩阵进行表示,CNN通过共享参数加权求和得到feature map实现特征提取,但是对于图结构数据来说,无法在空间域中定义相同的局部卷积核对图的所有节点进行计算。

简单看一下论文Semi-Supervised Classification with Graph Convolutional Networks

AbstractGCN是一种在图结构数据进行半监督学习的方法,它可直接作用在图结构数据上,是卷积神经网络的变体。通过谱图(spectral graph)卷积的一阶近似值确定卷积网络结构。模型的规模与图的边数呈线性变化,并且通过隐藏层的学习能够编码图的局部结构特征和节点特征。

Introduction:(1)神经网络模型引入了一个简单并且表现良好的Layer-Wise传播规则(2)用实验证明了这种基于图的神经网络的形式可以被用作在对图中的节点进行快速和可伸缩(fast and scalable )的半监督分类。

作者使用的是谱域的方式对GCN进行推导,中间使用了太多的数学推导,目前我还没完全理解,但是我认为不妨碍我们理解GCN的模型,我们可以直接看模型结构

GCN的作者在构建GCN模型之前有很复杂的理论推导,基于频域的推导是GCN的理论基础,本质就是想要通过拉普拉斯矩阵的特征值和特征向量研究图的性质。

每层GCN的输入都是邻接矩阵A和节点的特征H,那么直接做一个内积然后再乘以参数矩阵W,再激活一下,就相当于简单的神经网络层。第一层网络公式标表示为

论文中构造的是一个两层的神经网络模型,GCN的网络传播规则为

D为度矩阵,可以由A求得若分别采用ReLu和softmax激活函数,则最终的网络表示为,其中

Y对应于有标签的节点,最终的分类准确率通过有标签的节点进行计算,分类完成后,所有节点形成类别,计算有标签节点的分类和真实标签是否对应。

通过交叉熵损失计算损失

最终的损失函数为

为有标签部分的损失,后半部分由拉普拉斯矩阵的性质得到

GCN的强大之处

使用一个俱乐部会员的关系网络,使用随机初始化的GCN进行特征提取,得到各个nodeembedding,然后可视化可以发现,在原数据中同类别的 node,经过GCN 的提取出的embedding,已经在空间上自动聚类了

GCN无非也就是CNN的思想,利用GCN学习图的特征进行特征提取,然后再使用特征解决实际问题

 
 
### 回答1: 半监督分类是指利用同时带有标记和未标记数据的分类方法。这种方法旨在利用未标记数据来帮助提高分类器的性能,从而减少需要标记数据的数量。通常,半监督分类通过利用未标记数据的分布信息来构建分类器,并且这种方法在许多实际应用中都取得了很好的结果。 ### 回答2: 半监督分类,是指利用一部分数据进行有监督学习,以此来提高整个数据集的分类性能的方法。相较于全监督学习,半监督学习允许在训练过程中使用未标记的数据,只需要有一定数量的标记数据就可以实现高效的分类任务。 半监督分类的基础是“同分布假设”,即未标记的数据与标记数据属于同一分布。该假设基于一个假设性的结果:在标记和未标记的数据中,存在一些潜在的相似性。由此,使用未标记数据训练模型应当能够提高分类性能。 半监督分类主要有两种方法,主动学习和自我训练。主动学习依靠人类专家指导,根据样本的不确定性选择新的样本添加到训练集中,从而提高整体的性能。自我训练则是从已标记的样本中训练分类器,然后将分类器应用于未标记的样本,将那些分类器能够高置信度的样本添加到已标记集合中,不断迭代以提高性能。 半监督分类的应用广泛,特别是在文本分类、像分类、目标检测等领域中。由于标记数据的难以获取和昂贵的成本,半监督分类显得尤为重要。它不仅能够提高分类性能,而且提高了数据利用效率。虽然使用未标记的数据可能会带来一定的风险,但正确地使用半监督分类方法将提高训练效果,并使其比单纯的有监督学习更加稳健和可靠。 ### 回答3: 半监督分类(Semi-supervised Classification)是一种机器学习中的作业,它使用一小部分有标签的数据和大量未标记的数据来训练模型,从而进行分类。半监督分类主要是因为标记数据很昂贵或难以获取,因此利用未标记的数据来增强模型的学习能力。 通过半监督分类算法,可以把未标记的数据加入到模型训练过程中,从而提高模型的准确性和分类效果。在半监督分类中,未标记数据的利用对于模型的效果至关重要。因此,需要使用一些优秀的技术来处理未标记数据,例如半监督学习常用的技术,包括基于的算法、核方法、自编码器等等。 半监督学习的优点是可以使用很少的有标签数据来训练模型,从而节省时间和成本。此外,半监督学习还可以提高模型的复杂性,从而提高模型的泛化能力。在实际应用中,半监督学习算法已经得到广泛应用,例如像分类、文本分类、视频分类等等。 总之,半监督分类是一种重要的机器学习技术,通过利用未标记的数据来提高模型的学习能力,从而提高模型的准确性和分类效果。未来半监督学习算法还将得到越来越广泛的应用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值