Honeybee Locality-enhanced Projector for Multimodal LLM

Adenialzz

于 2024-08-13 11:11:15 发布

阅读量386

点赞数 16

文章标签：多模态人工智能机器学习

本文链接：https://blog.csdn.net/weixin_44966641/article/details/141159045

版权

Honeybee: Locality-enhanced Projector for Multimodal LLM

TL; DR：提出新的 MLLM Adapter：C-Abstractor 和 D-Abstractor，同时满足压缩 token 个数和保持空间信息两点要求，整体性能也更进一步。

导语

目前的 MLLM 大多是 Visual Encoder + LLM + Adapter（Projector）的形式，其中 Visual Encoder 和 LLM 都是结构确定且预训练好的，因此，Adapter 的结构设计和训练是 MLLM 能否成功的关键。Adapter 负责将 Viasual Encoder 提取到的视觉特征转换为 LLM 可以接收的视觉 tokens，是连接二者的桥梁。目前，主流的 Adapter 结构有三种：1. LLaVA 中的 MLP；2. Flamingo 中的 Perceiver Resampler；3. BLIP 2 中的 Q-Former。本文分析了 Adapter 需要满足的两大关键点，即灵活可变的视觉 token 数量和保持视觉特征局部 context 的空间信息，基于此提出了一种新颖的 MLLM Adapter：C/D Abstractor。此外，还提出了一套全面的高效利用多种 Instruction 数据集的方式。最终，本文构建了一个新的 MLLM，称为 HoneyBee，取得了 SOTA 的性能。

在这里插入图片描述

作者指出，作为 LLM 和 Visual Encoder 中间的桥梁，Adapter 最好既要能支持的视觉 token 个数，又能保持视觉特征中的空间信息。而这也正是作者认为目前已有的 Adapter 结构难以兼顾的两点。具体来说：

MLP 类 Adapte 简单有效，尤其是能保持视觉特征中的局部空间信息，但是其输出的视觉 token 个数却必须是与输入相同的。而由于 MLLM 中，LLM 的推理开销占绝大部分，因此 Visual Encoder 和 Adapter 本身的推理效率对整体影响并不大，反而是最终输出视觉 token 的个数对整体推理效率影响较大，因此在 Visual Encoder 输出的视觉 token 数量较多的情况下，如果不能通过 Adapter 压缩 token 个数，将对 LLM 造成很大的推理负担。
Resampler 和 Q-Former 类的 Adapter 结构，使用固定个数的 learnable quiries 和 cross attention 来从视觉特征中提取信息，输出视觉 token，虽然能够有效地压缩视觉 token 的个数，提高推理效率，但是却有一定的视觉信息损失。

方法

本文基于上述分析，提出了一类既可以保持图像特征空间信息，又可以压缩视觉 token 个数的 Adapter：C-Abstractor 和 D-Abstractor。

C-Abstractor

想要在压缩特征维度的同时保持局部空间信息，第一时间想到的模型结构就应该是卷积。C-Abstractor （Convolutional Abstrctor）正是一种基于卷积的 MLLM Adapter。其具体结构如下图 (a) 所示，首先经过 $L$ 个残差卷积块，再经过 Adaptive AvgPool 进行下采样，然后再经过 $L$ 个残差卷积块。由于卷积操作是一种滑窗滤波的形式，故而可以再保持视觉特征中空间信息的同时，结合 AvgPool 减少 token 数。

D-Abstractor

卷积的局部性归纳偏置可能会太强，因此作者还提出了一种 D-Abstractor（Deformable attention-based Abstractor）。其思路是在常规 Resampler 的基础上增强其局部性，同时保持其可变 token 个数的灵活性。具体来说，作者参考 Deformable DETR 中的 Deformable Attention，每个 learnable query 通过一个基于二维坐标的采样过程来收集视觉特征，该过程使用参考点（reference point）和采样偏移（sampling offset），聚焦于参考点附近的区域。这里本文还提出了一种手动初始化参考点的方法，使得 D-Abstractor 能够捕捉到给定图像的细粒度和全面信息。

在这里插入图片描述

实验

最重要的实验结果如下表所示，对比了 Linear、Resampler 和 C-Abstractor 的模型性能和推理速度。可以看到，在模型性能方面，Resampler 类的 Adapter 由于无法保持空间信息，其性能相比 Linear 和 C-Abs 类的 Adapter 差距较为明显，而这两者之间，也是 C-Abs 性能更好一些。推理速度方面，由于 Linear 类 Adapter 无法压缩视觉 token 个数，所以只能输出 256 个视觉 token，而 Resampler 和 C-Abs 类的 Adapter 则可以通过压缩 token 个数到 144，减少推理时间。

实验说明了 Linear 和 Resampler 两类 Adapter 各自在不可变视觉 token 个数和丢失视觉空间信息两方面的缺点。而 C-Abs 则能同时满足压缩 token 个数和保持空间信息的需求，并且性能也更进一步。

在这里插入图片描述

本文还提出了一套利用各种 Instruction 数据集的方法，配合提出的 Adapter，最终构建出了一个新的 MLLM：HoneyBee。从下表与其他 MLLM 的性能对比可以看到， HoneyBee 取得了较优的性能。

在这里插入图片描述

总结

HoneyBee 提出了两种新颖的 MLLM Adapter：C-Abstractor 和 D-Abstractor，同时满足压缩 token 个数和保持空间信息两点要求，并且性能也更进一步。

但个人感觉好像还是 Adaptive AvgPool 在发挥作用？感觉可以再对比一下 Linear + Adaptive AvgPool 的性能和推理时间。

Adenialzz

关注

16
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
Honeybee Locality-enhanced Projector for Multimodal LLM

HoneyBee 提出了两种新颖的 MLLM Adapter：C-Abstractor 和 D-Abstractor，同时满足压缩 token 个数和保持空间信息两点要求，并且性能也更进一步。但个人感觉好像还是 Adaptive AvgPool 在发挥作用？感觉可以再对比一下 Linear + Adaptive AvgPool 的性能和推理时间。
复制链接

扫一扫