SATA: Spatial Autocorrelation Token Analysis for Enhancing the Robustness of Vision Transformers

1. 动机&贡献

1.1 动机

  • ViT展示着超高的性能和鲁棒性,但是现有的方法对其改进需要在大规模的数据集上进行重新训练和微调
  • CNN卷积神经网络在特征上有着空间自相关性,但是随着网络结构的加深,这种自相关依赖会降低。同时在ViT网络结构上也有着相同的现象。
  • 此外,在非信息区域(如背景)中,具有极高或极低空间自相关分数的图像块可能会妨碍识别性能,并削弱网络对受损输入的鲁棒性。

1.2 贡献

  • 显著提升了ViT的鲁棒性和准确率,在标准分类任务(ImageNet-1K) 上表现突出,Top-1 Accuracy 达到 94.9%,为新的state-of-the-art(SOTA)性能。在多个鲁棒性评估基准上也取得了很好的成绩:ImageNet-A:Top-1 = 63.6%,ImageNet-R:Top-1 = 79.2%,ImageNet-C:mCE(mean Corruption Error)= 13.6%。
  • 即插即用,无需额外的昂贵微调或训练,还能提高推理效率。

2. 方法

在这里插入图片描述

2.1 空间自相关分数计算

在这里插入图片描述
这里的计算方法,参考莫兰指数计算。
这里a是一个token级别的拥有全局属性的Nx1的矩阵。
μ和σ代表着a的均值和方差,z其实就是a的标准化结果。
I l I_{l} I

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值