GCN使用的数据集Cora、Citeseer、Pubmed、Tox21格式


本文分享一下图卷积网络GCN里用到的一些数据集的格式

Cora、Citeseer、Pubmed
数据集来源#图#节点#边#特征#标签(y)
Cora“Collective classification in network data,” AI magazine,200812708542914337
Citeseer“Collective classification in network data,” AI magazine,200813327473237036
Pubmed“Collective classification in network data,” AI magazine,2008119717443385003
├── gcn
│   ├── data          //图数据
│   │   ├── ind.citeseer.allx
│   │   ├── ind.citeseer.ally
│   │   ├── ind.citeseer.graph
│   │   ├── ind.citeseer.test.index
│   │   ├── ind.citeseer.tx
│   │   ├── ind.citeseer.ty
│   │   ├── ind.citeseer.x
│   │   ├── ind.citeseer.y
│   │   ├── ind.cora.allx
│   │   ├── ind.cora.ally
│   │   ├── ind.cora.graph
│   │   ├── ind.cora.test.index
│   │   ├── ind.cora.tx
│   │   ├── ind.cora.ty
│   │   ├── ind.cora.x
│   │   ├── ind.cora.y
│   │   ├── ind.pubmed.allx
│   │   ├── ind.pubmed.ally
│   │   ├── ind.pubmed.graph
│   │   ├── ind.pubmed.test.index
│   │   ├── ind.pubmed.tx
│   │   ├── ind.pubmed.ty
│   │   ├── ind.pubmed.x
│   │   └── ind.pubmed.y
│   ├── __init__.py
│   ├── inits.py    //初始化的公用函数
│   ├── layers.py   //GCN层定义
│   ├── metrics.py  //评测指标的计算
│   ├── models.py   //模型结构定义
│   ├── train.py    //训练
│   └── utils.py    //工具函数的定义
├── LICENCE
├── README.md
├── requirements.txt
└── setup.py

三种数据都由以下八个文件组成,存储格式类似

ind.dataset_str.x => the feature vectors of the training instances as scipy.sparse.csr.csr_matrix object;
ind.dataset_str.tx => the feature vectors of the test instances as scipy.sparse.csr.csr_matrix object;
ind.dataset_str.allx => the feature vectors of both labeled and unlabeled training instances 
    (a superset of ind.dataset_str.x) as scipy.sparse.csr.csr_matrix object;
    
ind.dataset_str.y => the one-hot labels of the labeled training instances as numpy.ndarray object;
ind.dataset_str.ty => the one-hot labels of the test instances as numpy.ndarray object;
ind.dataset_str.ally => the labels for instances in ind.dataset_str.allx as numpy.ndarray object;

ind.dataset_str.graph => a dict in the format {index: [index_of_neighbor_nodes]} as collections.defaultdict object;
ind.dataset_str.test.index => the indices of test instances in graph, for the inductive setting as list object.

All objects above must be saved using python pickle module.
    
以cora为例:
ind.dataset_str.x => 训练实例的特征向量,是scipy.sparse.csr.csr_matrix类对象,shape:(140, 1433)
ind.dataset_str.tx => 测试实例的特征向量,shape:(1000, 1433)
ind.dataset_str.allx => 有标签的+无无标签训练实例的特征向量,是ind.dataset_str.x的超集,shape:(1708, 1433)

ind.dataset_str.y => 训练实例的标签,独热编码,numpy.ndarray类的实例,是numpy.ndarray对象,shape:(140, 7)
ind.dataset_str.ty => 测试实例的标签,独热编码,numpy.ndarray类的实例,shape:(1000, 7)
ind.dataset_str.ally => 对应于ind.dataset_str.allx的标签,独热编码,shape:(1708, 7)

ind.dataset_str.graph => 图数据,collections.defaultdict类的实例,格式为 {index:[index_of_neighbor_nodes]}
ind.dataset_str.test.index => 测试实例的id,2157行

上述文件必须都用python的pickle模块存储
  • Semi-Supervised Classification with Graph Convolutional Networks论文中的GCN是半监督学习,因此训练数据集中有的有标签有的没有标签
以Cora为例

原始数据集链接:http://linqs.cs.umd.edu/projects/projects/lbc/
数据集划分方式:https://github.com/kimiyoung/planetoid (Zhilin Yang, William W. Cohen, Ruslan Salakhutdinov, Revisiting Semi-Supervised Learning with Graph Embeddings, ICML 2016)

Cora数据集由机器学习论文组成,是近年来图深度学习很喜欢使用的数据集。在数据集中,论文分为以下七类之一:

  • 基于案例
  • 遗传算法
  • 神经网络
  • 概率方法
  • 强化学习
  • 规则学习
  • 理论

论文的选择方式是,在最终语料库中,每篇论文引用或被至少一篇其他论文引用。整个语料库中有2708篇论文。

在词干堵塞和去除词尾后,只剩下1433个独特的单词。文档频率小于10的所有单词都被删除。cora数据集包含1433个独特单词,所以特征是1433维。0和1描述的是每个单词在paper中是否存在

变量data是个scipy.sparse.csr.csr_matrix,类似稀疏矩阵,输出得到的是矩阵中非0的行列坐标及值

数据格式示例
(1)--------------------------------------ind.cora.x
def load_cora():
    names = ['x']
    with open("data/ind.cora.x", 'rb') as f:
        if sys.version_info > (3, 0):
            print(f)  # <_io.BufferedReader name='data/ind.cora.x'>
            data = pkl.load(f, encoding='latin1')
            print(type(data)) #<class 'scipy.sparse.csr.csr_matrix'>

            print(data.shape)   #(140, 1433)-ind.cora.x是140行,1433列的
            print(data.shape[0]) #row:140
            print(data.shape[1]) #column:1433
            print(data[1])
  # 变量data是个scipy.sparse.csr.csr_matrix,类似稀疏矩阵,输出得到的是矩阵中非0的行列坐标及值
  # (0, 19)	1.0
  # (0, 88)	1.0
  # (0, 149)	1.0
  # (0, 212)	1.0
  # (0, 233)	1.0
  # (0, 332)	1.0
  # (0, 336)	1.0
  # (0, 359)	1.0
  # (0, 472)	1.0
  # (0, 507)	1.0
  # (0, 548)	1.0
  # ...

# print(data[100][1]) #IndexError: index (1) out of range
            nonzero=data.nonzero()
            print(nonzero)     #输出非零元素对应的行坐标和列坐标
# (array([  0,   0,   0, ..., 139, 139, 139], dtype=int32), array([  19,   81,  146, ..., 1263, 1274, 1393], dtype=int32))
            # nonzero是个tuple
            print(type(nonzero)) #<class 'tuple'>
            print(nonzero[0])    #行:[  0   0   0 ... 139 139 139]
            print(nonzero[1])    #列:[  19   81  146 ... 1263 1274 1393]
            print(nonzero[1][0])  #19
            print(data.toarray())
# [[0. 0. 0. ... 0. 0. 0.]
#  [0. 0. 0. ... 0. 0. 0.]
#  [0. 0. 0. ... 0. 0. 0.]
#  ...
#  [0. 0. 0. ... 0. 1. 0.]
#  [0. 0. 0. ... 0. 0. 0.]
#  [0. 1. 0. ... 0. 0. 0.]]

(2)--------------------------------------ind.cora.y

def load_cora():
    with open("data/ind.cora.y", 'rb') as f:
        if sys.version_info > (3, 0):
            print(f)  #<_io.BufferedReader name='data/ind.cora.y'>
            data = pkl.load(f, encoding='latin1')
            print(type(data)) #<class 'numpy.ndarray'>
            print(data.shape)   #(140, 7)
            print(data.shape[0]) #row:140
            print(data.shape[1]) #column:7
            print(data[1]) #[0 0 0 0 1 0 0]
            
(3)--------------------------------------ind.cora.graph

def load_cora():
    with open("data/ind.cora.graph", 'rb') as f:
        if sys.version_info > (3, 0):
            data = pkl.load(f, encoding='latin1')
            print(type(data)) #<class 'collections.defaultdict'>
            print(data) 
# defaultdict(<class 'list'>, {0: [633, 1862, 2582], 1: [2, 652, 654], 2: [1986, 332, 1666, 1, 1454], 
#   , ... , 
#   2706: [165, 2707, 1473, 169], 2707: [598, 165, 1473, 2706]})


(4)--------------------------------------ind.cora.test.index

test_idx_reorder = parse_index_file("data/ind.{}.test.index".format(dataset_str))
print("test index:",test_idx_reorder)
#test index: [2692, 2532, 2050, 1715, 2362, 2609, 2622, 1975, 2081, 1767, 2263,..]
print("min_index:",min(test_idx_reorder))
# min_index: 1708

(5)citeseer数据集中一些孤立点的特殊处理
    #处理citeseer中一些孤立的点
    if dataset_str == 'citeseer':
        # Fix citeseer dataset (there are some isolated nodes in the graph)
        # Find isolated nodes, add them as zero-vecs into the right position

        test_idx_range_full = range(min(test_idx_reorder), max(test_idx_reorder)+1)
        # print("test_idx_range_full.length",len(test_idx_range_full))
        #test_idx_range_full.length 1015

        #转化成LIL格式的稀疏矩阵,tx_extended.shape=(1015,1433)
        tx_extended = sp.lil_matrix((len(test_idx_range_full), x.shape[1]))
        # print(tx_extended)
        #[2312 2313 2314 2315 2316 2317 2318 2319 2320 2321 2322 2323 2324 2325
        # ....
        # 3321 3322 3323 3324 3325 3326]

        #test_idx_range-min(test_idx_range):列表中每个元素都减去min(test_idx_range),即将test_idx_range列表中的index值变为从0开始编号
        tx_extended[test_idx_range-min(test_idx_range), :] = tx
        # print(tx_extended.shape) #(1015, 3703)

        # print(tx_extended)
        # (0, 19) 1.0
        # (0, 21) 1.0
        # (0, 169) 1.0
        # (0, 170) 1.0
        # (0, 425) 1.0
        #  ...
        # (1014, 3243) 1.0
        # (1014, 3351) 1.0
        # (1014, 3472) 1.0

        tx = tx_extended
        # print(tx.shape)
        # (1015, 3703)
        #997,994,993,980,938...等15行全为0


        ty_extended = np.zeros((len(test_idx_range_full), y.shape[1]))
        ty_extended[test_idx_range-min(test_idx_range), :] = ty
        ty = ty_extended
        # for i in range(ty.shape[0]):
        #     print(i," ",ty[i])
        #     # 980 [0. 0. 0. 0. 0. 0.]
        #     # 994 [0. 0. 0. 0. 0. 0.]
        #     # 993 [0. 0. 0. 0. 0. 0.]

  • allx是训练集中的所有训练实例,包含有标签的和无标签的,从0-1707,共1708个
  • ally是allx对应的标签,从1708-2707,共1000个
  • citeseer的测试数据集中有一些孤立的点(test.index中没有对应的索引,15个),可把这些点当作特征全为0的节点加入到测练集tx中,并且对应的标签在ty中
  • 输入是一张整图,因此将tx和allx拼起来作为feature
  • 没有标签的数据的y值:[0,0,0,0,0,0,0]
  • 数据集中的特征也是稀疏的,用LIL稀疏矩阵存储,格式如下
A=np.array([[1,0,2,0],[0,0,0,0],[3,0,0,0],[1,0,0,4]])
AS=sp.lil_matrix(A)
print(AS)
# (0, 0) 1
# (0, 2) 2
# (2, 0) 3
# (3, 0) 1
# (3, 3) 4

Tox21 数据集

此数据集来源于一个PubChem网站的一个2014年的竞赛:https://tripod.nih.gov/tox21/challenge/about.jsp
PubChem是美国国立卫生研究院(NIH)的开放化学数据库,是世界上最大的免费化学物信息集合。
PubChem的数据由数百个数据源提供,包括:政府机构,化学品供应商,期刊出版商等。

21世纪的毒理学(Tox21)计划是NIH,环境保护局和食品药品管理局的联邦合作计划,旨在开发更好的毒性评估方法。目标是快速有效地测试某些化合物是否有可能破坏人体中可能导致不良健康影响的过程。Tox21数据集是其中一个比赛用到的数据集,包含了12个毒理试验测定的化学合成物质的结构信息

  • 雌激素受体α,LBD(ER,LBD)
  • 雌激素受体α,full(ER,full)
  • 芳香
  • 芳烃受体(AhR)
  • 雄激素受体,full(AR,full)
  • 雄激素受体,LBD(AR,LBD)
  • 过氧化物酶体增殖物激活受体γ(PPAR-γ)
  • 核因子(红细胞衍生的2)样2 /抗氧化反应元件(Nrf2 / ARE)
  • 热休克因子反应元件(HSE)
  • ATAD5
  • 线粒体膜电位(MMP)
  • P53

每个毒理实验测试的都是PUBCHEM_SID从144203552-144214049共10486个化合物,包括环保化合物、一些上市药物等物质的活性结果。
例如,p53实验的测定结果可以在线查看

  • PubChem AID:生物活性鉴定记录ID
  • PubChem SID:物质ID
  • PubChem CID:化合物ID

数据集可在此下载:https://tripod.nih.gov/tox21/challenge/data.jsp#

训练集和测试集都是由多个分子结构构成的sdf格式的文件。
一个分子的信息存储格式如下:

  • 第一行:一般作为分子名字,如NCGC00255644-01,有时为空格
  • 第二行:注释,Marvin 07111412562D
  • 第三行:一般是空行
  • 第四行:是原子个数 键的个数等的起始行。
  • M END所在行结束原子个数 键的个数等信息。

下面是属性值,属性个数不定

  • 属性1
  • 属性1值
  • 空行
  • 属性2
  • 属性2值
  • 空行
  • (以四个美元符号结束一个分子的信息存储。)
  • 在训练集中,标签为”Active“,“1”表示活性,“0”表示没有活性
  • 在测试集中,没有标签”Active“

训练集中一个分子的信息存储格式如下:

NCGC00255644-01
  Marvin  07111412562D          

 26 27  0  0  1  0            999 V2000
    4.5831   -4.3075    0.0000 O   0  0  0  0  0  0  0  0  0  0  0  0
    5.2840   -3.9061    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    5.9910   -4.3075    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    5.2840   -3.0973    0.0000 O   0  0  0  0  0  0  0  0  0  0  0  0
    1.4379   -1.6595    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    1.4379   -2.4863    0.0000 C   0  0  1  0  0  0  0  0  0  0  0  0
    2.1508   -2.0609    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    1.4379   -3.3010    0.0000 C   0  0  2  0  0  0  0  0  0  0  0  0
    0.7070   -2.0609    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    2.8577   -2.4863    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    2.1508   -1.2342    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    0.7070   -3.7084    0.0000 C   0  0  1  0  0  0  0  0  0  0  0  0
    2.1508   -3.7084    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    0.0000   -2.4863    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    2.8577   -3.3010    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    3.5646   -2.0609    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    2.8577   -0.8388    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    1.1323   -4.4273    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    0.3056   -4.4273    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    0.0000   -3.3010    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    3.5646   -1.2342    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    0.7189   -5.1463    0.0000 N   0  0  0  0  0  0  0  0  0  0  0  0
    4.2955   -0.8388    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    5.0085   -1.2342    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    4.2955    0.0000    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    1.4379   -4.1338    0.0000 H   0  0  0  0  0  0  0  0  0  0  0  0
  1  2  1  0  0  0  0
  2  3  1  0  0  0  0
  2  4  2  0  0  0  0
  6  5  1  1  0  0  0
  6  7  1  0  0  0  0
  6  8  1  0  0  0  0
  6  9  1  0  0  0  0
  7 10  1  0  0  0  0
  7 11  2  0  0  0  0
  8 12  1  0  0  0  0
  8 13  1  0  0  0  0
  8 26  1  6  0  0  0
  9 14  1  0  0  0  0
 10 15  1  0  0  0  0
 10 16  2  0  0  0  0
 11 17  1  0  0  0  0
 12 18  1  6  0  0  0
 12 19  1  1  0  0  0
 12 20  1  0  0  0  0
 13 15  1  0  0  0  0
 14 20  1  0  0  0  0
 16 21  1  0  0  0  0
 17 21  2  0  0  0  0
 18 22  1  0  0  0  0
 21 23  1  0  0  0  0
 23 24  1  0  0  0  0
 23 25  1  0  0  0  0
M  END
>  <Formula>
C22H35NO2

>  <FW>
345.5188 (60.0520+285.4668)

>  <DSSTox_CID>
27102

>  <Active>
0

$$$$

测试集中一个分子的信息存储格式如下:

NCGC00261443
  Marvin  10161415332D          

 20 22  0  0  1  0            999 V2000
    0.5185    2.9762    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    1.2330    2.5637    0.0000 N   0  0  0  0  0  0  0  0  0  0  0  0
    1.2330    1.7387    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    0.5185    1.3262    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
   -0.2661    1.5812    0.0000 N   0  0  0  0  0  0  0  0  0  0  0  0
   -0.7510    0.9137    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
   -0.2661    0.2463    0.0000 N   0  0  0  0  0  0  0  0  0  0  0  0
   -0.5210   -0.5383    0.0000 C   0  0  2  0  0  0  0  0  0  0  0  0
   -1.3056   -0.7933    0.0000 O   0  0  0  0  0  0  0  0  0  0  0  0
   -1.3056   -1.6183    0.0000 C   0  0  2  0  0  0  0  0  0  0  0  0
   -1.9731   -2.1032    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
   -2.7268   -1.7676    0.0000 O   0  0  0  0  0  0  0  0  0  0  0  0
   -0.5210   -1.8732    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
   -0.2661   -2.6578    0.0000 O   0  0  0  0  0  0  0  0  0  0  0  0
   -0.0361   -1.2058    0.0000 C   0  0  1  0  0  0  0  0  0  0  0  0
    0.7889   -1.2058    0.0000 O   0  0  0  0  0  0  0  0  0  0  0  0
    0.5185    0.5012    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    1.2330    0.0887    0.0000 N   0  0  0  0  0  0  0  0  0  0  0  0
    1.9475    0.5012    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    1.9475    1.3262    0.0000 N   0  0  0  0  0  0  0  0  0  0  0  0
  1  2  1  0  0  0  0
  2  3  1  0  0  0  0
  3  4  2  0  0  0  0
  4  5  1  0  0  0  0
  5  6  2  0  0  0  0
  6  7  1  0  0  0  0
  7  8  1  0  0  0  0
  8  9  1  1  0  0  0
  9 10  1  0  0  0  0
 10 11  1  1  0  0  0
 11 12  1  0  0  0  0
 10 13  1  0  0  0  0
 13 14  1  0  0  0  0
 13 15  1  0  0  0  0
  8 15  1  0  0  0  0
 15 16  1  6  0  0  0
  7 17  1  0  0  0  0
  4 17  1  0  0  0  0
 17 18  2  0  0  0  0
 18 19  1  0  0  0  0
 19 20  2  0  0  0  0
  3 20  1  0  0  0  0
M  END
>  <Compound ID>
NCGC00261443

>  <Compound Batch ID>
NCGC00261443-01

>  <NR-AR>
0

>  <NR-AR-LBD>
0

>  <NR-AhR>
0

>  <NR-ER>
0

>  <NR-ER-LBD>
0

>  <NR-PPAR-gamma>
0

>  <SR-ARE>
0

>  <SR-ATAD5>
1

>  <SR-HSE>
0

>  <SR-MMP>
0

>  <SR-p53>
0

$$$$

目标应该就是根据训练集的分子结构信息和是否是活性的标签去预测测试集中的分子结构的活性。训练集中可能是一个分子构成一张图,里面的原子和健构成节点和边,但是没有找到关于数据集中原子和健部分的数据更具体介绍,不知道每一行数据的意义。

有错误的地方还望不吝指出,欢迎进群交流GNNs&GCNs(入群备注信息!!!,格式:姓名 -(学校或其他机构信息)- 研究方向)。

  • 56
    点赞
  • 258
    收藏
    觉得还不错? 一键收藏
  • 37
    评论
### 回答1: GCN(Graph Convolutional Network)是一种用于图结构数据的深度学习模型,而Cora数据集是一个常用的用于研究GCN模型性能的基准数据集Cora数据集是由论文《Revisiting Semi-Supervised Learning with Graph Embeddings》中提出的,用于研究半监督学习与图嵌入方法。它包含了一个引文网络,其中节点代表了学术论文,边表示两篇论文之间的引用关系。数据集中的每篇论文都有一个包含1433个特征的特征向量,这些特征向量是通过将每篇论文的标题和摘要转化为词向量、计算TF-IDF得到的。 在Cora数据集中,论文被分为7个不同的类别(如机器学习、神经网络、数据库等)。数据集总共包含2708个节点(论文),其中有140个节点(论文)带有类别标签,其余节点没有标签。因此,Cora数据集被广泛用于基于图结构的半监督学习问题的研究中。 GCN模型可以用于Cora数据集的半监督学习任务。模型接受Cora数据集的邻接矩阵和特征矩阵作为输入。通过对邻接矩阵进行卷积操作,并结合特征矩阵,GCN模型能够通过学习节点之间的关系以及节点的特征信息来预测未标记节点的标签。 研究者可以使用Cora数据集来验证自己所提出的GCN模型在半监督学习任务上的性能。当然,Cora数据集也可以用于其他与引文网络相关的研究,如节点分类、链路预测等。 总而言之,Cora数据集为研究者提供了一个用于验证GCN模型性能以及进行其他引文网络相关研究的标准数据集,通过该数据集可以促进图神经网络领域的发展。 ### 回答2: GCN(Graph Convolutional Network)是一种用于图数据学习的深度学习模型,可以学习节点的表示和图的关系。Cora数据集是一个常用的图数据集,用于评估和比较不同的图学习算法。 Cora数据集包含一个包含2708个科学论文的引文网络。这些论文分为7个类别,其中每个类别对应着一个研究领域。引文网络的节点表示论文,边表示论文间的引用关系。论文的特征向量是词频的One-Hot编码,而边缘是无向的。 在使用GCNCora数据集进行训练时,首先需要将图结构转换为邻接矩阵的表示。邻接矩阵中的每个元素代表两个节点之间的连接情况。随后,需要为每个节点生成初试的特征向量表示。GCN模型通过多层的图卷积操作来学习节点表示。 在训练过程中,GCN会通过前向传播和反向传播来更新权重,使得模型能够尽可能地准确地预测每个节点的类别。通过迭代训练,GCN模型可以逐渐提升对节点表示和图结构关系的学习能力。 在使用Cora数据集进行训练时,我们可以评估模型在节点分类任务上的性能。即给定一个节点,预测其所属的类别。通常,我们可以将数据集划分为训练集、验证集和测试集,并使用验证集来调整超参数,通过测试集来评估模型的泛化能力。 总之,GCN模型是一种用于图数据学习的强大工具,在Cora数据集上的应用可以帮助我们更好地理解和分析引文网络中的关系。 ### 回答3: GCN(Graph Convolutional Network)是一种用于图数据的深度学习模型,而Cora数据集则是用于GNN模型训练和评估的常用数据集之一。 Cora数据集是由Jon Kleinberg设计和发布的,用于文本分类任务。该数据集包含了从一系列研究论文中提取出的2708个文档的特征。这些文档分为7个类别,即机器学习、数据库、人类智能、设计与分析、系统、理论和数据结构。同时,这些文档之间的引用关系被用作图结构,通过边来表示不同文档之间的引用关系。这个图表示了论文之间的知识传播和交互。 在GCN中,每个节点代表一个文档,而边代表了文档之间的引用关系。对于Cora数据集而言,每个节点都有一个特征向量,包含了关于论文的内容信息。GCN模型通过使用图卷积神经网络的聚合操作来从邻居节点中汇聚信息,并将这些信息进行特征提取和表示学习。 训练一个GCN模型需要将Cora数据集划分为训练集、验证集和测试集。通常,将140个样本用作训练集,500个样本用作验证集,剩余的2068个样本用作测试集。在训练过程中,GCN模型将根据训练集上的标签信息进行参数反向传播和优化,以减小预测标签与真实标签之间的差距。 通过训练GCN模型,并使用Cora数据集进行评估,我们可以评估GCN模型在文本分类任务中的性能。通过计算模型在测试集上的准确率或其他性能指标,我们可以了解其在准确地预测不同文档的类别方面的能力。在实际应用中,GCN模型和Cora数据集可以被用于许多图数据相关的任务,如社交网络分析、推荐系统等。
评论 37
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值