图网络常用数据集总结——Cora, CiteSeer, PubMed, PPI, BlogCatalog, Yelp

最新推荐文章于 2025-02-23 04:04:17 发布

刘星星儿

最新推荐文章于 2025-02-23 04:04:17 发布

阅读量2.3w

点赞数 21

分类专栏：论文相关机器学习深度学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43580130/article/details/116449062

版权

机器学习同时被 3 个专栏收录

25 篇文章

订阅专栏

论文相关

8 篇文章

订阅专栏

深度学习

4 篇文章

订阅专栏

Cora数据集(引文网络)由机器学习论文组成，是近年来图深度学习很喜欢使用的数据集。该数据集共2708个样本点，每个样本点都是一篇科学论文，所有样本点被分为8个类别，类别分别是：
1）基于案例；2）遗传算法；3）神经网络；4）概率方法；5）强化学习；6）规则学习；7）理论

每篇论文都由一个1433维的词向量表示，所以，每个样本点具有1433个特征。词向量的每个元素都对应一个词，且该元素只有0或1两个取值。取0表示该元素对应的词不在论文中，取1表示在论文中。所有的词来源于一个具有1433个词的字典。

每篇论文都至少引用了一篇其他论文，或者被其他论文引用，也就是样本点之间存在联系，没有任何一个样本点与其他样本点完全没联系。如果将样本点看做图中的点，则这是一个连通的图，不存在孤立点。

文件格式：下载的压缩包中有三个文件，分别是cora.cites，cora.content，README。
README是对数据集的介绍；cora.content是所有论文的独自的信息；cora.cites是论文之间的引用记录。
1.cora.content共有2708行，每一行代表一个样本点，即一篇论文。每一行由三部分组成，分别是论文的编号，如31336；论文的词向量，一个有1433位的二进制；论文的类别，如Neural_Networks。
2.cora.cites共5429行，每一行有两个论文编号，表示第一个编号的论文先写，第二个编号的论文引用第一个编号的论文。

CiteSeer数据集(引文网络)中，论文分为六类：Agents、AI（人工智能）、DB（数据库）、IR（信息检索）、ML（机器语言）和HCI。
共包含3312篇论文，记录了论文之间引用或被引用信息。去除停用词和在文档中出现频率小于10次的词，整理得到3703个唯一词。
CiteSeer数据集包含两个文件：.content文件和.cites文件：
.content文件描述论文信息的格式为：<paper_id> <word_attributes>+<class_label>；每行的第一个条目（paper_id）是每篇论文的唯一编号ID，后续（word_attributes）包含3703个二进制码，表示词汇表中的每个单词在论文中是否存在（由1表示）或不存在（由0表示），最后一个条目（class_label）表示论文的类标签。
.cites文件描述了论文之间的引用信息，格式为：。每行数据包含了两篇论文的编码ID，第一个条目（ID of cited paper）表示被引用论文的编号，第二个条目（ID of citing paper）表示引用论文的编号。

PubMed数据集(引文网络)包括来自Pubmed数据库的19717篇关于糖尿病的科学出版物，分为三类：
Diabetes Mellitus, Experimental
Diabetes Mellitus Type 1
Diabetes Mellitus Type 2
引文网络由44338个链接组成。数据集中的每个出版物都由一个由500个唯一单词组成的字典中的TF/IDF加权词向量来描述。
数据集包含以下三个文件：
①Pubmed-Diabetes.NODE.paper.tab
内容格式说明如下：<paper_id> +<label=> +
每行数据的第一个条目（paper_id）是每篇论文的唯一编号ID，第二个条目是“label=”,""表示该论文的所属类别，后续包含500个浮点数TF_IDF值，形式是"word="，“word"表示词汇，”"表示词汇的TF_IDF值。
②Pubmed-Diabetes.GRAPH.pubmed.tab
无用文件，不用关注
③Pubmed-Diabetes.DIRECTED.cites.tab
<> + paper:* | paper:*
每行数据的第一个条目暂时还没搞明白代表什么意思，第二个条目的数据和表示被引用论文的ID，第三个条目的数据表示引用论文的ID。

PPI(生物化学结构) 网络是蛋白质相互作用（Protein-Protein Interaction,PPI）网络的简称，在GCN中主要用于节点分类任务
PPI是指两种或以上的蛋白质结合的过程，通常旨在执行其生化功能。一般地，如果两个蛋白质共同参与一个生命过程或者协同完成某一功能，都被看作这两个蛋白质之间存在相互作用。多个蛋白质之间的复杂的相互作用关系可以用PPI网络来描述。
PPI数据集共24张图，每张图对应不同的人体组织，平均每张图有2371个节点，共56944个节点818716条边，每个节点特征长度为50，其中包含位置基因集，基序集和免疫学特征。基因本体基作为label(总共121个)，label不是one-hot编码。
valid_feats.npy文件保存节点的特征，shape为(56944, 50)(节点数目，特征维度)，值为0或1，且1的数目稀少
ppi-class_map.json为节点的label文件，shape为(121, 56944),每个节点的label为121维
ppi-G.json文件为节点和链接的描述信息，节点：{“test”: true, “id”: 56708, “val”: false}, 表示节点id为56708的节点是否为test集或者val集，链接：“links”: [{“source”: 0, “target”: 372}, {“source”: 0, “target”: 1101}, 表示节点id为0的节点和为1101的节点之间有links。
ppi-walks.txt文件中为链接信息
ppi-id_map.json文件为节点id信息

BlogCatalog数据集(社交网络)的结点数为10312，边条数为333983，label维度为39，数据集包含两个文件：
Nodes.csv：以字典的形式存储用户的信息，但是只包含节点id。
Edges.csv：存储博主的社交网络（好友等），以此来构图。

Yelp数据集是一个酒店管理相关的数据集，668+w条评论，19+w个商业机构，20w张图片，10个都市区域，字段包括:营业时间、是否泊车、可用性和环境