如何将批量图数据集中的特征张量分布回到原点附近

小小码农在线码字

已于 2024-07-05 11:08:04 修改

阅读量263

点赞数 9

文章标签：深度学习 pytorch 人工智能

于 2024-07-05 11:02:25 首次发布

本文链接：https://blog.csdn.net/weixin_46234454/article/details/140201576

版权

如何将批量图数据集中的特征张量分布回到原点附近

如何将批量图数据集中的特征张量分布回到原点附近：recenter

如何将批量图数据集中的特征张量分布回到原点附近：recenter

在机器学习领域，有时，我们的数据分布偏离原点。这时会导致学习难收敛。比如：当数据a范围都为正时，如果直接使用sigmoid函数进行数据范围的[0,1]的归一，会导致将所有数据归一到[0.5,1]，这对于0、1二分类问题来说就是有错误的。这时，可以通过将数据a进行重新回到原点的操作来解决问题。
对于批量图数据集，这操作还设计到不同图节点特征的操作。可以在torch_geometric库加载图数据集后，借鉴下述的方法进行。(这里的torch_geometric会将不同的图节点进行统一编号，如第一个图的节点从1-5，第二个图的第一个节点从6开始编号，依次类推。并维护一个data.batch=[0,0,0,0,0,1…]的tensor，来记录每个节点编号属于第几个图。下文中的src一般指边特征，index是边的出边或者入边边号。)具体torch_geometric的操作请另行查阅资料，本文不再赘述。
回到我们要解决的问题本身。首先，我们直接给出python库torch_scatter的scatter_softmax函数中对这一问题的解决方法，再从中分析。

 def scatter_softmax(src: torch.Tensor, index: torch.Tensor,
                    dim: int = -1,
                    dim_size: Optional[int] = None) -> torch.Tensor: # 对特征src，按照index，做softmax
    if not torch.is_floating_point(src):
        raise ValueError('`scatter_softmax` can only be computed over tensors '
                         'with floating point data types.')

    index = broadcast(index, src, dim) 

    max_value_per_index = scatter_max(
        src, index, dim=dim, dim_size=dim_size)[0]
    max_per_src_element = max_value_per_index.gather(dim, index)

    recentered_scores = src - max_per_src_element
    recentered_scores_exp = recentered_scores.exp_()

    sum_per_index = scatter_sum(
        recentered_scores_exp, index, dim, dim_size=dim_size)
    normalizing_constants = sum_per_index.gather(dim, index)

    return recentered_scores_exp.div(normalizing_constants)

上述代码中，scatter_max(src,index)沿着index，求src的最大值。
先求出max_value_per_index，即每个index对应的最大数值；然后使用max_value_per_index.gather(dim,index):沿着index，从max_value_per_index中搜集数据，形成新的张量。
当 index tensor([ 0, 0, 1, 1, 1, 2, 2, 2, 3, 2, 4, 3, 3, 4, 4, 5, 5, 6, 6, 6, 7, 7, 7, 8, 7, 9, 8, 8, 9, 9, 10, 10, 11, 11, 11, 12, 12, 12, 13, 12, 14, 13, 13, 14, 14], device='cuda:0'),src为：src tensor([596.8430, 634.6791, 642.4894, 680.3254, 677.8878, 655.6506, 653.2131, 650.6517, 626.8849, 638.5160, 648.1790, 624.3235, 612.1879, 645.6176, 633.4819, 596.8430, 634.6791, 642.4894, 680.3254, 677.8878, 655.6506, 653.2131, 650.6517, 626.8849, 638.5160, 648.1790, 624.3235, 612.1879, 645.6176, 633.4819, 596.8430, 634.6791, 642.4894, 680.3254, 677.8878, 655.6506, 653.2131, 650.6517, 626.8849, 638.5160, 648.1790, 624.3235, 612.1879, 645.6176, 633.4819], device='cuda:0', grad_fn=<LeakyReluBackward0>)时；
max_per_src_element为tensor([634.6791, 634.6791, 680.3254, 680.3254, 680.3254, 655.6506, 655.6506, 655.6506, 626.8849, 655.6506, 648.1790, 626.8849, 626.8849, 648.1790, 648.1790, 634.6791, 634.6791, 680.3254, 680.3254, 680.3254, 655.6506, 655.6506, 655.6506, 626.8849, 655.6506, 648.1790, 626.8849, 626.8849, 648.1790, 648.1790, 634.6791, 634.6791, 680.3254, 680.3254, 680.3254, 655.6506, 655.6506, 655.6506, 626.8849, 655.6506, 648.1790, 626.8849, 626.8849, 648.1790, 648.1790], device='cuda:0', grad_fn=<GatherBackward0>)
最后通过recentered_scores = src - max_per_src_element 实现数据中心化。数据结果为：recentered_scores tensor([-37.8361, 0.0000, -37.8361, 0.0000, -2.4376, 0.0000, -2.4376, -4.9989, 0.0000, -17.1346, 0.0000, -2.5613, -14.6970, -2.5614, -14.6970, -37.8361, 0.0000, -37.8361, 0.0000, -2.4376, 0.0000, -2.4376, -4.9989, 0.0000, -17.1346, 0.0000, -2.5613, -14.6970, -2.5614, -14.6970, -37.8361, 0.0000, -37.8361, 0.0000, -2.4376, 0.0000, -2.4376, -4.9989, 0.0000, -17.1346, 0.0000, -2.5613, -14.6970, -2.5614, -14.6970], device='cuda:0', grad_fn=<SubBackward0>)。
.div 和.exp_ 是tensor自带的基础操作：除法、指数操作。
上述方法将数据分布归一到了[负无穷,0]之间，又通过e指数将数据归一到[0,1]之间。我们可以借鉴这个方法，通过求平均值，并减去平均值，来实现将数据src归一到0的左右。