Honeybee Locality-enhanced Projector for Multimodal LLM

Honeybee: Locality-enhanced Projector for Multimodal LLM

TL; DR:提出新的 MLLM Adapter:C-Abstractor 和 D-Abstractor,同时满足压缩 token 个数和保持空间信息两点要求,整体性能也更进一步。

导语

目前的 MLLM 大多是 Visual Encoder + LLM + Adapter(Projector) 的形式,其中 Visual Encoder 和 LLM 都是结构确定且预训练好的,因此,Adapter 的结构设计和训练是 MLLM 能否成功的关键。Adapter 负责将 Viasual Encoder 提取到的视觉特征转换为 LLM 可以接收的视觉 tokens,是连接二者的桥梁。目前,主流的 Adapter 结构有三种:1. LLaVA 中的 MLP;2. Flamingo 中的 Perceiver Resampler;3. BLIP 2 中的 Q-Former。本文分析了 Adapter 需要满足的两大关键点,即灵活可变的视觉 token 数量和保持视觉特征局部 context 的空间信息,基于此提出了一种新颖的 MLLM Adapter:C/D Abstractor。此外,还提出了一套全面的高效利用多种 Instruction 数据集的方式。最终,本文构建了一个新的 MLLM,称为 HoneyBee,取得了 SOTA 的性能。

在这里插入图片描述

作者指出,作为 LLM 和 Visual Encoder 中间的桥梁,Adapter 最好既要能支持 的视觉 token 个数,又能保持视觉特征中的空间信息。而这也正是作者认为目前已有的 Adapter 结构难以兼顾的两点。具体来说:

  • MLP 类 Adapte 简单有效,尤其是能保持视觉特征中的局部空间信息,但是其输出的视觉 token 个数却必须是与输入相同的。而由于 MLLM 中,LLM 的推理开销占绝大部分,因此 Visual Encoder 和 Adapter 本身的推理效率对整体影响并不大,反而是最终输出视觉 token 的个数对整体推理效率影响较大,因此在 Visual Encoder 输出的视觉 token 数量较多的情况下,如果不能通过 Adapter 压缩 token 个数,将对 LLM 造成很大的推理负担。
  • Resampler 和 Q-Former 类的 Adapter 结构,使用固定个数的 learnable quiries 和 cross attention 来从视觉特征中提取信息,输出视觉 token,虽然能够有效地压缩视觉 token 的个数,提高推理效率,但是却有一定的视觉信息损失。

方法

本文基于上述分析,提出了一类既可以保持图像特征空间信息,又可以压缩视觉 token 个数的 Adapter:C-Abstractor 和 D-Abstractor。

C-Abstractor

想要在压缩特征维度的同时保持局部空间信息,第一时间想到的模型结构就应该是卷积。C-Abstractor (Convolutional Abstrctor)正是一种基于卷积的 MLLM Adapter。其具体结构如下图 (a) 所示,首先经过 L L L 个残差卷积块,再经过 Adaptive AvgPool 进行下采样,然后再经过 L L L 个残差卷积块。由于卷积操作是一种滑窗滤波的形式,故而可以再保持视觉特征中空间信息的同时,结合 AvgPool 减少 token 数。

D-Abstractor

卷积的局部性归纳偏置可能会太强,因此作者还提出了一种 D-Abstractor(Deformable attention-based Abstractor)。其思路是在常规 Resampler 的基础上增强其局部性,同时保持其可变 token 个数的灵活性。具体来说,作者参考 Deformable DETR 中的 Deformable Attention,每个 learnable query 通过一个基于二维坐标的采样过程来收集视觉特征,该过程使用参考点(reference point)和采样偏移(sampling offset),聚焦于参考点附近的区域。这里本文还提出了一种手动初始化参考点的方法,使得 D-Abstractor 能够捕捉到给定图像的细粒度和全面信息。

在这里插入图片描述

实验

最重要的实验结果如下表所示,对比了 Linear、Resampler 和 C-Abstractor 的模型性能和推理速度。可以看到,在模型性能方面,Resampler 类的 Adapter 由于无法保持空间信息,其性能相比 Linear 和 C-Abs 类的 Adapter 差距较为明显,而这两者之间,也是 C-Abs 性能更好一些。推理速度方面,由于 Linear 类 Adapter 无法压缩视觉 token 个数,所以只能输出 256 个视觉 token,而 Resampler 和 C-Abs 类的 Adapter 则可以通过压缩 token 个数到 144,减少推理时间。

实验说明了 Linear 和 Resampler 两类 Adapter 各自在不可变视觉 token 个数和丢失视觉空间信息两方面的缺点。而 C-Abs 则能同时满足压缩 token 个数和保持空间信息的需求,并且性能也更进一步。

在这里插入图片描述

本文还提出了一套利用各种 Instruction 数据集的方法,配合提出的 Adapter,最终构建出了一个新的 MLLM:HoneyBee。从下表与其他 MLLM 的性能对比可以看到, HoneyBee 取得了较优的性能。

在这里插入图片描述

总结

HoneyBee 提出了两种新颖的 MLLM Adapter:C-Abstractor 和 D-Abstractor,同时满足压缩 token 个数和保持空间信息两点要求,并且性能也更进一步。

但个人感觉好像还是 Adaptive AvgPool 在发挥作用?感觉可以再对比一下 Linear + Adaptive AvgPool 的性能和推理时间。

  • 16
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值