论文 | 视觉 | 视觉Transformers的统一且生物学上合理的关系图表示

研究提出了一个统一且生物学上合理的视觉Transformer（ViT）模型关系图表示，由聚合图和仿射图组成，揭示了ViT模型性能的关键因素。研究发现，图测量如聚类系数和平均路径长度与模型预测性能密切相关，并在多种ViT架构和数据集上表现出一致性。此外，ViT关系图表示与大脑生物神经网络显示出高度相似性，为理解ViT的表示性能提供了新的视角。

摘要由CSDN通过智能技术生成

原创 Yuzhong Chen 图科学实验室Graph Science Lab 2022-06-23 20:58 发表于台湾

视觉Transformer (ViT) 及其变体在各种视觉任务中取得了显着的成功。这些 ViT 模型的关键特征是在人工神经网络 (ANN) 内采用不同的空间补丁信息聚合策略。然而，对于模型表示性能的系统理解和评估，仍然缺乏对不同 ViT 架构的统一表示。此外，这些表现良好的 ViT ANN 与真实生物神经网络 (BNN) 的相似之处在很大程度上尚未得到探索。为了回答这些基本问题，我们首次提出了统一且生物学上合理的 ViT 模型关系图表示。具体来说，所提出的关系图表示由两个关键子图组成：聚合图和仿射图。前者将ViT令牌视为节点，描述它们的空间交互，后者将网络通道视为节点，反映通道之间的信息交流。使用这种统一的关系图表示，我们发现：a) 聚合图的最佳点导致 ViT 具有显着提高的预测性能；b) 聚类系数和平均路径长度的图形度量是模型预测性能的两个有效指标，尤其是在应用于小样本数据集时；c) 我们的发现在各种 ViT 架构和多个数据集上是一致的；d) 提出的 ViT 关系图表示与源自脑科学数据的真实 BNN 具有高度相似性。总体而言，我们的工作为 ViT ANN 的更可解释和更有效的表示提供了一种新颖的统一且生物学上合理的范式。

在这里插入图片描述