GNN提取特征代码片段

只是有点小怂

于 2024-08-02 20:12:00 发布

阅读量1.2k

点赞数 16

分类专栏： python练手文章标签：深度学习

本文链接：https://blog.csdn.net/xiong_xin/article/details/140879226

版权

python练手专栏收录该内容

59 篇文章

订阅专栏

文章目录

提取特征代码片段
打印特征代码片段

提取特征代码片段

这个代码段定义了一个函数 extract_features，它的作用是从一个图神经网络（GNN）模型中提取特征。下面是对这个函数的解释：

def extract_features(dataloader, gnn_model):
    # 将模型设置为评估模式。这会关闭dropout等训练时才需要的操作
    gnn_model.eval()

    # 创建一个空的列表，用于存储提取的所有特征
    all_features = []
    
    # 禁用梯度计算，以提高效率和节省内存
    with torch.no_grad():
        # 遍历数据加载器中的所有数据
        for data in dataloader:
            # 将数据移动到指定的设备（通常是GPU）
            data = data.to(device)
            # 使用GNN模型提取数据的特征
            gnn_features = gnn_model(data.x, data.edge_index)
            # 将提取的特征移动到CPU，并添加到特征列表中
            all_features.append(gnn_features.cpu())

    # 将所有提取的特征在第0维度上拼接成一个大的特征矩阵
    x_features = torch.cat(all_features, dim=0)
    
    # 返回提取的特征矩阵
    return x_features

具体步骤和解释

模型评估模式：
```
gnn_model.eval()
```
这行代码将GNN模型设置为评估模式。评估模式会关闭诸如dropout等在训练时使用但在评估时不需要的操作，从而确保模型的一致性。
禁用梯度计算：
```
with torch.no_grad():
```
这段代码块内禁用了梯度计算。这样做的好处是减少内存消耗和提高计算速度，因为在提取特征时不需要计算梯度。
遍历数据加载器：
```
for data in dataloader:
    data = data.to(device)
    gnn_features = gnn_model(data.x, data.edge_index)
    all_features.append(gnn_features.cpu())
```
- 数据加载和移动：从数据加载器中逐个读取数据，并将数据移动到指定设备（通常是GPU）。
- 特征提取：使用GNN模型提取每个数据样本的特征。通常，data.x代表节点特征，data.edge_index代表图的边索引。
- 存储特征：将提取的特征从GPU移动到CPU（以确保后续处理不会因为显存不足而出错），并添加到 all_features 列表中。
拼接特征矩阵：
```
x_features = torch.cat(all_features, dim=0)
```
将所有提取的特征沿第0维度（通常是样本数量维度）拼接成一个大的特征矩阵。
返回特征矩阵：
```
return x_features
```
返回最终拼接好的特征矩阵。

通过这些步骤，该函数成功地从GNN模型中提取并拼接了所有样本的特征。

打印特征代码片段

这个代码片段定义了一个函数 print_extract_features，它的主要作用是提取图神经网络（GNN）模型的节点特征并将其保存为CSV文件，同时打印一些特征的信息。下面是对这个函数的详细解释：

def print_extract_features(train_loader, gnn_model):
    # 提取训练数据加载器中的节点特征
    train_features = extract_features(train_loader, gnn_model)

    # 将提取的特征转换为DataFrame，每列命名为feature_0, feature_1, ..., feature_n
    df = pd.DataFrame(train_features, columns=[f"feature_{i}" for i in range(train_features.shape[1])])
    # 将DataFrame保存为CSV文件，不保存索引列
    df.to_csv("node_features.csv", index=False)
    print("Features saved to node_features.csv")

    # 打印特征矩阵的维度
    print(f'train_features shape: {train_features.shape}')
    # 打印特征矩阵前3个样本的特征
    print(f'train_features[0:3]: {train_features[0:3]}')

具体步骤和解释

提取特征：
```
train_features = extract_features(train_loader, gnn_model)
```
使用之前定义的 extract_features 函数，从 train_loader 中提取GNN模型的节点特征，得到一个特征矩阵 train_features。
创建DataFrame：
```
df = pd.DataFrame(train_features, columns=[f"feature_{i}" for i in range(train_features.shape[1])])
```
将提取的特征转换为一个Pandas DataFrame。每列命名为 feature_0, feature_1, …, feature_n，其中 n 是特征的维度（即 train_features.shape[1]）。
保存为CSV文件：
```
df.to_csv("node_features.csv", index=False)
```
将DataFrame保存为CSV文件，文件名为 node_features.csv，并且不保存索引列。
打印保存成功信息：
```
print("Features saved to node_features.csv")
```
打印一条消息，表示特征已成功保存到CSV文件中。
打印特征矩阵的维度：
```
print(f'train_features shape: {train_features.shape}')
```
打印特征矩阵的维度，形如 (num_samples, num_features)，表示样本数量和每个样本的特征数量。
打印前3个样本的特征：
```
print(f'train_features[0:3]: {train_features[0:3]}')
```
打印特征矩阵前3个样本的特征，方便查看特征的具体值。