【2024】QKFormer: Hierarchical Spiking Transformer using Q-K Attention

最新推荐文章于 2024-10-14 22:19:06 发布

深研 AI Lab

最新推荐文章于 2024-10-14 22:19:06 发布

阅读量973

点赞数 19

分类专栏：即插即用注意力机制文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/weixin_49090702/article/details/137063812

版权

即插即用同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

注意力机制

1 篇文章 0 订阅

订阅专栏

论文提出QKFormer，一种利用Q-K注意力和层次结构的尖峰变换器，解决SNN在复杂任务中的性能瓶颈。实验结果显示QKFormer在ImageNet-1K上达到85.65%的top-1精度，展示了显著的性能提升和低功耗优势。

摘要由CSDN通过智能技术生成

文章目录

基本信息:

标题: QKFormer: Hierarchical Spiking Transformer using Q-K Attention

作者: Chenlin Zhou, Han Zhang, Zhaokun Zhou 等

机构: Peng Cheng Laboratory, Harbin Institute of Technology, Peking University

发表日期: 2024年3月25日

论文链接: arXiv:2403.16552

代码和模型: GitHub - QKFormer

在这里插入图片描述

论文摘要

尖峰变换器（Spiking Transformers）结合了尖峰神经网络（SNNs）和变换器（Transformer）架构的优势，旨在提高能效和性能。然而，现有模型在处理复杂数据集上的视觉任务时仍面临性能瓶颈。本文提出了QKFormer，一种基于Q-K注意力机制的层次化尖峰变换器，通过直接训练实现了显著的性能提升。

QKFormer的核心创新包括：

引入了一种新的尖峰形式Q-K注意力机制，该机制通过二进制向量以线性复杂度高效地建模令牌或通道维度的重要性。
采用了层次结构，以实现多尺度的尖峰表示，这在大脑和人工神经网络中都显示出显著的性能提升。
设计了一个多功能且强大的补丁嵌入模块，特别为尖峰变换器定制，以增强尖峰信息传输。
QKFormer在ImageNet-1K等主流数据集上取得了优异的性能，特别是在与Spikformer相比时，QKFormer在ImageNet-1K上达到了85.65%的top-1准确率，这是直接训练SNNs首次在该数据集上超过85%的准确率。此外，QKFormer的代码和模型已公开，供研究社区使用。

总体而言，QKFormer的开发标志着在变换器基础上的SNNs研究迈出了重要一步，为未来在能效和性能上进一步提升SNNs提供了新的方向。

背景与动机

论文背景:

尖峰神经网络（SNNs）因其与生物神经网络的高度相似性、事件驱动特性和低功耗而在神经形态硬件上显示出巨大潜力。然而，现有的SNN模型在处理复杂数据集上的视觉任务时性能受限，尤其是在变换器架构的实现上。

过去方案

以往的SNN模型通常采用直接训练或将预训练的人工神经网络（ANN）转换为SNN的方法。这些方法虽然在性能上取得了一定的进展，但在处理大规模数据集时仍面临梯度爆炸/消失问题和计算复杂度高的挑战。

论文的Motivation

为了克服现有模型的局限性，作者提出了一种新的层次化尖峰变换器模型，通过引入Q-K注意力机制和层次化架构来提高模型的性能和能效。

核心方法:

a. 理论背景:

QKFormer基于尖峰变换器的概念，结合了尖峰神经网络的生物学可信度和变换器架构的强大表示能力。

b. 技术路线:

提出了一种新的尖峰形式Q-K注意力机制，适用于SNNs。
引入了层次结构，以实现多尺度的尖峰表示。
设计了一个强大的补丁嵌入模块，特别为尖峰变换器定制。

c.核心贡献：

开发了一种新的Q-K注意力机制，具有线性复杂度，适用于SNNs的时空尖峰模式。
设计了一个多功能的补丁嵌入模块，显著提高了尖峰变换器的性能。
构建了一个基于Q-K注意力和补丁嵌入模块的层次化尖峰变换器，名为QKFormer。
在多个静态和神经形态数据集上，QKFormer的性能超过了现有的最先进SNN模型。

在这里插入图片描述

实验结果

a. 详细的实验设置

使用ImageNet-1K、CIFAR10/100等数据集进行评估。
使用AdamW优化器，采用RandAugment、随机擦除和随机深度等数据增强技术。
QKFormer模型在ImageNet-1K上进行了200个周期的训练，批量大小为512。

b. 详细的实验结果

QKFormer在ImageNet-1K上达到了85.65%的top-1准确率和97.74%的top-5准确率。
在CIFAR10和CIFAR100数据集上，QKFormer分别达到了96.18%和81.15%的top-1准确率。
在DVS128 Gesture和CIFAR10-DVS等时间神经形态数据集上，QKFormer也显示出优越的性能。
在这里插入图片描述