SATA: Spatial Autocorrelation Token Analysis for Enhancing the Robustness of Vision Transformers

原创

已于 2025-05-16 13:45:44 修改 · 867 阅读

·

16

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#ai #鲁棒性 #深度学习

于 2025-05-16 13:41:23 首次发布

目录

1. 动机&贡献

1.1 动机

ViT展示着超高的性能和鲁棒性，但是现有的方法对其改进需要在大规模的数据集上进行重新训练和微调。
CNN卷积神经网络在特征上有着空间自相关性，但是随着网络结构的加深，这种自相关依赖会降低。同时在ViT网络结构上也有着相同的现象。
此外，在非信息区域（如背景）中，具有极高或极低空间自相关分数的图像块可能会妨碍识别性能，并削弱网络对受损输入的鲁棒性。

1.2 贡献

显著提升了ViT的鲁棒性和准确率，在标准分类任务（ImageNet-1K） 上表现突出，Top-1 Accuracy 达到 94.9%，为新的state-of-the-art（SOTA）性能。在多个鲁棒性评估基准上也取得了很好的成绩：ImageNet-A：Top-1 = 63.6%，ImageNet-R：Top-1 = 79.2%，ImageNet-C：mCE（mean Corruption Error）= 13.6%。
即插即用，无需额外的昂贵微调或训练，还能提高推理效率。

2. 方法

在这里插入图片描述

2.1 空间自相关分数计算

在这里插入图片描述
这里的计算方法，参考莫兰指数计算。
这里a是一个token级别的拥有全局属性的Nx1的矩阵。
μ和σ代表着a的均值和方差，z其实就是a的标准化结果。
$I_{l}$

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。