从上到下|图网络开放数据集

本文介绍了多个领域的图网络开放数据集,包括引文网络、生化图、社交网络、知识图谱,以及一些开源数据仓库,如DBLP、PPI、Reddit、FB15K等,这些数据集常用于测试图神经网络的性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

从上到下|图网络开放数据集

很多学者和机构发布了许多与图相关的任务,以测试各种GNN的性能。这些任务一般都会提供数据集。


按照任务分类,可以把数据集分成以下几类:

  • 引文网络
  • 生化图
  • 社交网络
  • 知识图谱
  • 开源数据集仓库


参考资料:

  1. A Comprehensive Survey on Graph Neural Networks
  2. Introduction to Graph Neural Networks

引文网络

Pubmed/Cora/Citeseer

引文网络,节点为论文、边为论文间的引用关系。这三个数据集通常用于链路预测或节点分类。


这三个数据集均来自于:
《Collective classification in network data》


下载链接可从以下网址找到:
https://linqs.soe.ucsc.edu/data

DBLP

DBLP是大型的计算机类文献索引库。原始的DBLP只是XML格式,清华唐杰教授的一篇论文将其进行处理并获得引文网络数据集。到目前为止已经发展到了第12个版本。


DBLP引用网络论文:
《ArnetMiner: Extraction and Mining of Academic Social Networks》

  • 原始数据可以从这里获得:

https://dblp.uni-trier.de/xml/

  • 如果是想找处理过的DBLP引文网络数据集,可以从这里获得:

https://www.aminer.cn/citation

数据集 节点数 边数 特征 标签
Cora 2,708 5,429 1,433 7
Citeseer 3,327 4,732 3,703 6
Pubmed 19,717 44,338 500 3
DBLP_v12 4,894,081 45,564,149 - -

生化图

PPI

蛋白质-蛋白质相互作用(protein-protein interaction, PPI)是指两个或两个以上的蛋白质分子通过非共价键形成 蛋白质复合体(protein complex)的过程。


PPI数据集中共有24张图,其中训练用20张,验证/测试分别2张。


节点最多可以有121种标签(比如蛋白质的一些性质、所处位置等)。每个节点有50个特征,包含定位基因集合、特征基因集合以及免疫特征。

PPI论文
《Predicting multicellular function through multi-layer tissue networks》
PPI下载链接
http://snap.stanf

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值