图网络常用数据集总结——Cora, CiteSeer, PubMed, PPI, BlogCatalog, Yelp

Cora数据集(引文网络)由机器学习论文组成,是近年来图深度学习很喜欢使用的数据集。该数据集共2708个样本点,每个样本点都是一篇科学论文,所有样本点被分为8个类别,类别分别是:
1)基于案例;2)遗传算法;3)神经网络;4)概率方法;5)强化学习;6)规则学习;7)理论

每篇论文都由一个1433维的词向量表示,所以,每个样本点具有1433个特征。词向量的每个元素都对应一个词,且该元素只有0或1两个取值。取0表示该元素对应的词不在论文中,取1表示在论文中。所有的词来源于一个具有1433个词的字典。

每篇论文都至少引用了一篇其他论文,或者被其他论文引用,也就是样本点之间存在联系,没有任何一个样本点与其他样本点完全没联系。如果将样本点看做图中的点,则这是一个连通的图,不存在孤立点。

文件格式:下载的压缩包中有三个文件,分别是cora.cites,cora.content,README。
README是对数据集的介绍;cora.content是所有论文的独自的信息;cora.cites是论文之间的引用记录。
1.cora.content共有2708行,每一行代表一个样本点,即一篇论文。每一行由三部分组成,分别是论文的编号,如31336;论文的词向量,一个有1433位的二进制;论文的类别,如Neural_Networks。
2.cora.cites共5429行, 每一行有两个论文编号,表示第一个编号的论文先写,第二个编号的论文引用第一个编号的论文。

CiteSeer数据集(引文网络)中,论文分为六类:Agents、AI(人工智能)、DB(数据库)、IR(信息检索)、ML(机器语言)和HCI。
共包含3312篇论文,记录了论文之间引用或被引用信息。去除停用词和在文档中出现频率小于10次的词,整理得到3703个唯一词。
CiteSeer数据集包含两个文件:.content文件和.cites文件:
.content文件描述论文信息的格式为:<paper_id> <word_attributes>+<class_label>;每行的第一个条目(paper_id)是每篇论文的唯一编号ID,后续(word_attributes)包含3703个二进制码,表示词汇表中的每个单词在论文中是否存在(由1表示)或不存在(由0表示),最后一个条目(class_label)表示论文的类标签。
.cites文件描述了论文之间的引用信息,格式为: 。每行数据包含了两篇论文的编码ID,第一个条目(ID of cited paper)表示被引用论文的编号,第二个条目(ID of citing paper)表示引用论文的编号。

PubMed数据集(引文网络)包括来自Pubmed数据库的19717篇关于糖尿病的科学出版物,分为三类:
Diabetes Mellitus, Experimental
Diabetes Mellitus Type 1
Diabetes Mellitus Type 2
引文网络由44338个链接组成。数据集中的每个出版物都由一个由500个唯一单词组成的字典中的TF/IDF加权词向量来描述。
数据集包含以下三个文件:
①Pubmed-Diabetes.NODE.paper.tab
内容格式说明如下:<paper_id> +<label=> +
每行数据的第一个条目(paper_id)是每篇论文的唯一编号ID,第二个条目是“label=
”,""表示该论文的所属类别,后续包含500个浮点数TF_IDF值,形式是"word=",“word"表示词汇,”"表示词汇的TF_IDF值。
②Pubmed-Diabetes.GRAPH.pubmed.tab
无用文件,不用关注
③Pubmed-Diabetes.DIRECTED.cites.tab
<
> + paper:* | paper:*
每行数据的第一个条目暂时还没搞明白代表什么意思,第二个条目的数据和表示被引用论文的ID,第三个条目的数据表示引用论文的ID。

PPI(生物化学结构) 网络是蛋白质相互作用(Protein-Protein Interaction,PPI)网络的简称,在GCN中主要用于节点分类任务
PPI是指两种或以上的蛋白质结合的过程,通常旨在执行其生化功能。一般地,如果两个蛋白质共同参与一个生命过程或者协同完成某一功能,都被看作这两个蛋白质之间存在相互作用。多个蛋白质之间的复杂的相互作用关系可以用PPI网络来描述。
PPI数据集共24张图,每张图对应不同的人体组织,平均每张图有2371个节点,共56944个节点818716条边,每个节点特征长度为50,其中包含位置基因集,基序集和免疫学特征。基因本体基作为label(总共121个),label不是one-hot编码。
valid_feats.npy文件保存节点的特征,shape为(56944, 50)(节点数目,特征维度),值为0或1,且1的数目稀少
ppi-class_map.json为节点的label文件,shape为(121, 56944),每个节点的label为121维
ppi-G.json文件为节点和链接的描述信息,节点:{“test”: true, “id”: 56708, “val”: false}, 表示节点id为56708的节点是否为test集或者val集,链接:“links”: [{“source”: 0, “target”: 372}, {“source”: 0, “target”: 1101}, 表示节点id为0的节点和为1101的节点之间有links。
ppi-walks.txt文件中为链接信息
ppi-id_map.json文件为节点id信息

BlogCatalog数据集(社交网络)的结点数为10312,边条数为333983,label维度为39,数据集包含两个文件:
Nodes.csv:以字典的形式存储用户的信息,但是只包含节点id。
Edges.csv:存储博主的社交网络(好友等),以此来构图。

Yelp数据集是一个酒店管理相关的数据集,668+w条评论,19+w个商业机构,20w张图片,10个都市区域,字段包括:营业时间、是否泊车、可用性和环境

  • 20
    点赞
  • 81
    收藏
    觉得还不错? 一键收藏
  • 12
    评论
### 回答1: GCN(Graph Convolutional Network)是一种用于结构数据的深度学习模型,而Cora数据集是一个常用的用于研究GCN模型性能的基准数据集Cora数据集是由论文《Revisiting Semi-Supervised Learning with Graph Embeddings》中提出的,用于研究半监督学习与嵌入方法。它包含了一个引文网络,其中节点代表了学术论文,边表示两篇论文之间的引用关系。数据集中的每篇论文都有一个包含1433个特征的特征向量,这些特征向量是通过将每篇论文的标题和摘要转化为词向量、计算TF-IDF得到的。 在Cora数据集中,论文被分为7个不同的类别(如机器学习、神经网络、数据库等)。数据集总共包含2708个节点(论文),其中有140个节点(论文)带有类别标签,其余节点没有标签。因此,Cora数据集被广泛用于基于结构的半监督学习问题的研究中。 GCN模型可以用于Cora数据集的半监督学习任务。模型接受Cora数据集的邻接矩阵和特征矩阵作为输入。通过对邻接矩阵进行卷积操作,并结合特征矩阵,GCN模型能够通过学习节点之间的关系以及节点的特征信息来预测未标记节点的标签。 研究者可以使用Cora数据集来验证自己所提出的GCN模型在半监督学习任务上的性能。当然,Cora数据集也可以用于其他与引文网络相关的研究,如节点分类、链路预测等。 总而言之,Cora数据集为研究者提供了一个用于验证GCN模型性能以及进行其他引文网络相关研究的标准数据集,通过该数据集可以促进神经网络领域的发展。 ### 回答2: GCN(Graph Convolutional Network)是一种用于数据学习的深度学习模型,可以学习节点的表示和的关系。Cora数据集是一个常用数据集,用于评估和比较不同的学习算法。 Cora数据集包含一个包含2708个科学论文的引文网络。这些论文分为7个类别,其中每个类别对应着一个研究领域。引文网络的节点表示论文,边表示论文间的引用关系。论文的特征向量是词频的One-Hot编码,而边缘是无向的。 在使用GCN对Cora数据集进行训练时,首先需要将结构转换为邻接矩阵的表示。邻接矩阵中的每个元素代表两个节点之间的连接情况。随后,需要为每个节点生成初试的特征向量表示。GCN模型通过多层的卷积操作来学习节点表示。 在训练过程中,GCN会通过前向传播和反向传播来更新权重,使得模型能够尽可能地准确地预测每个节点的类别。通过迭代训练,GCN模型可以逐渐提升对节点表示和结构关系的学习能力。 在使用Cora数据集进行训练时,我们可以评估模型在节点分类任务上的性能。即给定一个节点,预测其所属的类别。通常,我们可以将数据集划分为训练集、验证集和测试集,并使用验证集来调整超参数,通过测试集来评估模型的泛化能力。 总之,GCN模型是一种用于数据学习的强大工具,在Cora数据集上的应用可以帮助我们更好地理解和分析引文网络中的关系。 ### 回答3: GCN(Graph Convolutional Network)是一种用于数据的深度学习模型,而Cora数据集则是用于GNN模型训练和评估的常用数据集之一。 Cora数据集是由Jon Kleinberg设计和发布的,用于文本分类任务。该数据集包含了从一系列研究论文中提取出的2708个文档的特征。这些文档分为7个类别,即机器学习、数据库、人类智能、设计与分析、系统、理论和数据结构。同时,这些文档之间的引用关系被用作结构,通过边来表示不同文档之间的引用关系。这个表示了论文之间的知识传播和交互。 在GCN中,每个节点代表一个文档,而边代表了文档之间的引用关系。对于Cora数据集而言,每个节点都有一个特征向量,包含了关于论文的内容信息。GCN模型通过使用卷积神经网络的聚合操作来从邻居节点中汇聚信息,并将这些信息进行特征提取和表示学习。 训练一个GCN模型需要将Cora数据集划分为训练集、验证集和测试集。通常,将140个样本用作训练集,500个样本用作验证集,剩余的2068个样本用作测试集。在训练过程中,GCN模型将根据训练集上的标签信息进行参数反向传播和优化,以减小预测标签与真实标签之间的差距。 通过训练GCN模型,并使用Cora数据集进行评估,我们可以评估GCN模型在文本分类任务中的性能。通过计算模型在测试集上的准确率或其他性能指标,我们可以了解其在准确地预测不同文档的类别方面的能力。在实际应用中,GCN模型和Cora数据集可以被用于许多数据相关的任务,如社交网络分析、推荐系统等。
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值