如何将批量图数据集中的特征张量分布回到原点附近:recenter
- 在机器学习领域,有时,我们的数据分布偏离原点。这时会导致学习难收敛。比如:当数据a范围都为正时,如果直接使用sigmoid函数进行数据范围的[0,1]的归一,会导致将所有数据归一到[0.5,1],这对于0、1二分类问题来说就是有错误的。这时,可以通过将数据a进行重新回到原点的操作来解决问题。
- 对于批量图数据集,这操作还设计到不同图节点特征的操作。可以在torch_geometric库加载图数据集后,借鉴下述的方法进行。(这里的torch_geometric会将不同的图节点进行统一编号,如第一个图的节点从1-5,第二个图的第一个节点从6开始编号,依次类推。并维护一个data.batch=[0,0,0,0,0,1…]的tensor,来记录每个节点编号属于第几个图。下文中的src一般指边特征,index是边的出边或者入边边号。)具体torch_geometric的操作请另行查阅资料,本文不再赘述。
- 回到我们要解决的问题本身。首先,我们直接给出python库
torch_scatter
的scatter_softmax
函数中对这一问题的解决方法,再从中分析。
def scatter_softmax(src: torch.Tensor, index: torch.Tensor,
dim: int = -1,
dim_size: Optional[int] = None) -> torch.Tensor:
if not torch.is_floating_point(src):
raise ValueError('`scatter_softmax` can only be computed over tensors '
'with floating point data types.')
index = broadcast(index, src, dim)
max_value_per_index = scatter_max(
src, index, dim=dim, dim_size=dim_size)[0]
max_per_src_element = max_value_per_index.gather(dim, index)
recentered_scores = src - max_per_src_element
recentered_scores_exp = recentered_scores.exp_()
sum_per_index = scatter_sum(
recentered_scores_exp, index, dim, dim_size=dim_size)
normalizing_constants = sum_per_index.gather(dim, index)
return recentered_scores_exp.div(normalizing_constants)
- 上述代码中,
scatter_max(src,index)
沿着index,求src的最大值。 - 先求出
max_value_per_index
,即每个index对应的最大数值;然后使用max_value_per_index.gather(dim,index)
:沿着index,从max_value_per_index
中搜集数据,形成新的张量。 - 当
index tensor([ 0, 0, 1, 1, 1, 2, 2, 2, 3, 2, 4, 3, 3, 4, 4, 5, 5, 6, 6, 6, 7, 7, 7, 8, 7, 9, 8, 8, 9, 9, 10, 10, 11, 11, 11, 12, 12, 12, 13, 12, 14, 13, 13, 14, 14], device='cuda:0')
,src为:src tensor([596.8430, 634.6791, 642.4894, 680.3254, 677.8878, 655.6506, 653.2131, 650.6517, 626.8849, 638.5160, 648.1790, 624.3235, 612.1879, 645.6176, 633.4819, 596.8430, 634.6791, 642.4894, 680.3254, 677.8878, 655.6506, 653.2131, 650.6517, 626.8849, 638.5160, 648.1790, 624.3235, 612.1879, 645.6176, 633.4819, 596.8430, 634.6791, 642.4894, 680.3254, 677.8878, 655.6506, 653.2131, 650.6517, 626.8849, 638.5160, 648.1790, 624.3235, 612.1879, 645.6176, 633.4819], device='cuda:0', grad_fn=<LeakyReluBackward0>)
时; - max_per_src_element为
tensor([634.6791, 634.6791, 680.3254, 680.3254, 680.3254, 655.6506, 655.6506, 655.6506, 626.8849, 655.6506, 648.1790, 626.8849, 626.8849, 648.1790, 648.1790, 634.6791, 634.6791, 680.3254, 680.3254, 680.3254, 655.6506, 655.6506, 655.6506, 626.8849, 655.6506, 648.1790, 626.8849, 626.8849, 648.1790, 648.1790, 634.6791, 634.6791, 680.3254, 680.3254, 680.3254, 655.6506, 655.6506, 655.6506, 626.8849, 655.6506, 648.1790, 626.8849, 626.8849, 648.1790, 648.1790], device='cuda:0', grad_fn=<GatherBackward0>)
- 最后通过
recentered_scores = src - max_per_src_element
实现数据中心化。数据结果为:recentered_scores tensor([-37.8361, 0.0000, -37.8361, 0.0000, -2.4376, 0.0000, -2.4376, -4.9989, 0.0000, -17.1346, 0.0000, -2.5613, -14.6970, -2.5614, -14.6970, -37.8361, 0.0000, -37.8361, 0.0000, -2.4376, 0.0000, -2.4376, -4.9989, 0.0000, -17.1346, 0.0000, -2.5613, -14.6970, -2.5614, -14.6970, -37.8361, 0.0000, -37.8361, 0.0000, -2.4376, 0.0000, -2.4376, -4.9989, 0.0000, -17.1346, 0.0000, -2.5613, -14.6970, -2.5614, -14.6970], device='cuda:0', grad_fn=<SubBackward0>)
。 .div
和.exp_
是tensor自带的基础操作:除法、指数操作。- 上述方法将数据分布归一到了[负无穷,0]之间,又通过e指数将数据归一到[0,1]之间。我们可以借鉴这个方法,通过求平均值,并减去平均值,来实现将数据src归一到0的左右。