从上到下|图网络开放数据集
很多学者和机构发布了许多与图相关的任务,以测试各种GNN的性能。这些任务一般都会提供数据集。
按照任务分类,可以把数据集分成以下几类:
- 引文网络
- 生化图
- 社交网络
- 知识图谱
- 开源数据集仓库
参考资料:
- A Comprehensive Survey on Graph Neural Networks
- Introduction to Graph Neural Networks
引文网络
Pubmed/Cora/Citeseer
引文网络,节点为论文、边为论文间的引用关系。这三个数据集通常用于链路预测或节点分类。
这三个数据集均来自于:
《Collective classification in network data》
下载链接可从以下网址找到:
https://linqs.soe.ucsc.edu/data
DBLP
DBLP是大型的计算机类文献索引库。原始的DBLP只是XML格式,清华唐杰教授的一篇论文将其进行处理并获得引文网络数据集。到目前为止已经发展到了第12个版本。
DBLP引用网络论文:
《ArnetMiner: Extraction and Mining of Academic Social Networks》
- 原始数据可以从这里获得:
https://dblp.uni-trier.de/xml/
- 如果是想找处理过的DBLP引文网络数据集,可以从这里获得:
https://www.aminer.cn/citation
数据集 | 节点数 | 边数 | 特征 | 标签 |
---|---|---|---|---|
Cora | 2,708 | 5,429 | 1,433 | 7 |
Citeseer | 3,327 | 4,732 | 3,703 | 6 |
Pubmed | 19,717 | 44,338 | 500 | 3 |
DBLP_v12 | 4,894,081 | 45,564,149 | - | - |
生化图
PPI
蛋白质-蛋白质相互作用(protein-protein interaction, PPI)是指两个或两个以上的蛋白质分子通过非共价键形成 蛋白质复合体(protein complex)的过程。
PPI数据集中共有24张图,其中训练用20张,验证/测试分别2张。
节点最多可以有121种标签(比如蛋白质的一些性质、所处位置等)。每个节点有50个特征,包含定位基因集合、特征基因集合以及免疫特征。
PPI论文:
《Predicting multicellular function through multi-layer tissue networks》
PPI下载链接:
http://snap.stanf