【Pytorch Geometric学习(一)】创建数据集

PyTorch Geometric中加载和处理数据集涉及到几个步骤,包括加载数据集、定义数据转换管道以及创建DataLoader。下面是一个基本的指南: 1. 加载数据集PyTorch Geometric提供了多种预处理过的数据集,可以通过`torch_geometric.datasets`模块进行加载。例如,加载Cora数据集可以使用以下代码: ```python from torch_geometric.datasets import Planetoid dataset = Planetoid(root='/tmp/Cora', name='Cora') ``` 这里的`root`参数指定了数据集保存的路径,`name`参数指定了数据集的名称。PyTorch Geometric数据集加载后会返回一个`Dataset`对象,其中包含了数据集中的数据。 2. 定义数据转换管道: 数据转换是神经网络中的一个重要步骤,它包括对结构和节点/边特征的预处理。PyTorch Geometric允许使用`torch_geometric.transforms`模块来定义一个转换管道。例如,添加自环和归一化节点特征可以这样实现: ```python from torch_geometric.transforms import AddSelfLoops, NormalizeFeatures transform = Compose([AddSelfLoops(), NormalizeFeatures()]) dataset = Planetoid(root='/tmp/Cora', name='Cora', transform=transform) ``` `Compose`函数接受一系列转换操作,并将它们组合起来。`AddSelfLoops`操作会为中的每个节点添加自环,而`NormalizeFeatures`操作会将节点特征按其列进行标准化处理。 3. 创建DataLoader: 有了数据集和可能的转换管道后,可以创建一个`DataLoader`以便于在训练模型时批量加载数据。`DataLoader`支持多进程数据加载,并可以和PyTorch的`DataLoader`类似地使用: ```python from torch_geometric.data import DataLoader loader = DataLoader(dataset, batch_size=32, shuffle=True) ``` 这里的`batch_size`定义了每个批次加载的的数量,`shuffle`参数设置为True可以保证在每个epoch中随机打乱数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值