本文分享香港大学计算和数据科学学院俞益洲教授及其研究团队发表于 AAAI 2025 的论文——SparX,一种强化 Vision Mamba 和 Transformer 的稀疏跳跃连接机制,性能强大,代码已开源。
论文标题:
SparX: A Sparse Cross-Layer Connection Mechanism for Hierarchical Vision Mamba and Transformer Networks
论文链接:
https://arxiv.org/abs/2409.09649
代码链接:
https://github.com/LMMMEng/SparX
摘要
香港大学计算和数据科学学院俞益洲教授 (https://i.cs.hku.hk/~yzyu/index.html) 及其研究团队开发了一种新型的层间稀疏跳跃连接机制 — Sparse Cross-Layer Connection Mechanism (SparX),可以有效提升包含 Vision Mamba 和 Transformer 在内的 Vision Backbone 的性能。
不同于常规的 Vision Backbone 通过堆叠相同的基础模块来搭建网络架构,SparX 受到了人类视觉系统中神经节细胞 (Retinal Ganglion Cell) 的启发, 将网络的基础模块分为两种不同的类型:神经节层 (Ganglion Layer) 和常规层(Normal Layer)。
前者具有更高的复杂度和连接度,类似于视觉系统中的神经节细胞,而后者的连接度和复杂度都较低,类似于视觉系统中的常规细胞。通过交叉堆叠 Ganglion Layer 和 Normal Layer 构建了一种新的 Vision Backbone 网络,在图像分类、语义分割和目标检测中展现了强大的性能。
例如,基于 SparX 构建的 Vision Mamba 模型 SparX-Mamba 相较于强大的 VMamba 仍有明显提升:虽然参数量更少,SparX-Mamba-T 在 ImageNet-1K 上的 Top-1 准确率仍超越 VMamba-T 1%。此外,SparX-Mamba 在语义分割和目标检测任务上同样具备突出的性能,展现了 Mamba 模型在学习长距离关联方面的优越性。
动机
随着自注意力(Self-attention)和状态空间模型(State Space Models 或 SSMs)在 NLP 任务中的优异表现,许多工作将这些方法成功应用到了视觉领域,例如 Swin-Transformer 和 VMamba。
目前主流的 Vision Backbone 模型的设计策略为构建新的 token mixer,并据此来构建视觉网络。然而,不同层输出的特征具有一定的互补性和冗余度,因此,寻找这些特征之间的互补性,并且移除冗余的特征可以进一步提升网络的表征能力,进而提升性能。
虽然一些先前的工作(例如 DenseNet)已经利用了不同网络层的交互和复用来提升性能,但是 DenseNet 中的稠密连接具有较高的计算复杂度,使其难以直接用于比卷积更加复杂的和 SSM 算子。因此,设计一种高效的神经连接机制来挖掘和利用网络的层间互补性仍然需要进一步探索。
方法
以基于 Mamba 的模型为例,在 SparX 中 Ganglion Layer 包含用于提取局部信息的动态位置编码(Dynamic Position Encoding (DPE)),用于实现层间信息交互的 Dynamic Multi-layer Channel Aggregator (DMCA),和用于空间上下文信息建模的视觉状态空间模型(Visual State Space Model 或 VSS),而 Normal Layer 则没有 DMCA 模块。
此外,SparX 引入了两条新的跨层连接规则:
1. Sparse Ganglion Layers 将一组具有均匀间隔的层指定为更加复杂且连接度更高的 ganglion layers,而所有其余层则为复杂度和连接度都较低的 normal layers。为了控制 ganglion layers 的密度,进而控制网络的复杂度和连接度,研究团队引入了一个步长参数 S,即 S=两个最近的 ganglion layers 之间的 normal layers 的层数加一。
此外,该规则定义了两种不同的连接类型:ganglion layer 和 norma layer 之间的内连以及两个 ganglion layers 之间的互连。为了让网络具备强大的层间特征交互且具有高效性,ganglion layer 只与处于自身和最近的前一个 ganglion layer 之间的那些 normal layers 建立内连,但是同时与多个先前的 ganglion layers 建立互连。
这种设计是因为:ganglion layer 可以被视为网络的“信息中心”,从最近的 normal layer 收集信息并与其他 ganglion layers 交换信息。一个简单的例子为:如果一个网络有 8 层并设置 S=2,则 normal layer 的索引为 {1, 3, 5, 7},而 ganglion layers 的索引为 {2, 4, 6, 8}。
2. 跨层滑动窗口(Cross-layer Sliding Window)旨在进一步提升网络高效性,其设计背后的动机是:尽管上述层间连接方式具有稀疏性,深层网络仍可能因需要存储和访问大量先前的特征图而产生较高的显存消耗。为此,受启发于经典的空间滑动窗口,引入另一个超参数 M 来限制每个 ganglion layer 仅与先前的 M 个最接近的 ganglion layers 建立互连。
基于这两条新规则,即使没有直接连接,语义信息仍然可以通过相对稀疏的内连和互连从较浅的网络层快速传递到较深的网络层。图 1 展示了一个 SparX (S=2, M=2) 的示例。
▲ 图1. Mamba-based SparX示例
为了选择性地从先前网络层的特征中挖掘有用的特征,从而动态的建模层间交互,研究团队提出了一个简单有效的 DMCA 模块。如下图所示,DMCA 用当前层特征作为 query,用先前层的特征作为 key/value 来构建 channel-wise cross attention。构建 channel attention 的目的是为了更好地进行通道之间的信息交互,从而获得更好的性能。
▲ 图2. DMCA架构图
实验结果
图像分类:SparX 在大规模数据集 ImageNet-1K 上表现出了卓越的性能,相较于现有方法,展现出更为出色的性能以及更好的 tradeoff。如表 1 所示,SparX-Mamba-S 仅以大约一半的参数量和 FLOPs 就超越了 VMamba-B 的性能。
如表 2 所示,对 SparX 在 ADE20K 上也进行了全面的评估,其性能在与一些强大的 Vision Backbones 的比较中脱颖而出,并且有着好的 tradeoff。
如表 3 所示,在 COCO 2017 数据集上,SparX 同样展示出了更优的性能。值得注意的是,当使用更加强大的训练条件(3× schedule)时,SparX 展现了更加显著的性能提升。
▲ 表3. COCO目标检测和实例分割性能对比
通用性实验
研究团队用经典的 Swin-Transformer 测试了 SparX 的通用性,为了保持公平对比,micro 设计严格保持了和 Swin 原始设计一致,例如完全相同的 patch embedding 和 token mixer。如表 4 所示,SparX 在不同任务上均取得了显著的性能提升。
▲ 表4. SparX用于Transformer架构时的性能
消融实验
为了验证 SparX 的有效性,研究团队构建了两种不同的稠密连接模型:1)Dense Ganglion Connections (DGC-Mamba-T):移除跨层滑动窗口(Cross-layer Sliding Window)来消除互连稀疏性;2)DenseNet-style Network (DSN-Mamba-T):完全按照 DenseNet 的策略来构建模型。
如表 5 所示,SparX 在保持最优性能的前提下还具备高效性。
▲ 表5. SparX和Dense Connection的对比
可视化实验
Centered Kernel Alignment (CKA) 分析:不难发现,在表 5 消融实验中,连接度更高的模型(DGC 和 DSN)并没有带来性能提升。为了寻找背后的原因,我们进行了模型的 CKA 分析。
如图 3 所示,VMamba-T 每一层学习到的特征与相邻层非常相似,说明了模型具有大量的特征冗余。此外,DGC 和 DSN 模型可以学习到更加多样化的特征,降低了特征冗余度。与这些方法相比,SparX 不同层的特征更加多样化,从而具有更加强大的特征表达,这也是其性能更好的原因。
▲ 图3. CKA可视化
有效感受野(Effective Receptive Field 或 ERF)分析:如图 4 所示,SparX-Mamba 和其它方法相比具有更大的感受野,进一步说明了 SparX 对模型表征能力的增强效果。
▲ 图4. Effective Receptive Fields可视化
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈