多模态大模型研究综述

人工智能大模型讲师培训咨询叶梓

已于 2024-11-03 21:25:55 修改

阅读量1.3k

点赞数 28

分类专栏： AI前沿文章标签：深度学习人工智能大模型智能体多模态机器学习自然语言处理

于 2024-10-22 12:45:00 首次发布

本文链接：https://blog.csdn.net/weixin_44292902/article/details/143112184

版权

人工智能咨询培训老师叶梓转载标明出处

尽管LLMs在自然语言处理（NLP）任务上表现出色，但它们在视觉方面是“盲”的，即只能理解离散的文本信息。与此同时，大型视觉模型（LVMs）虽然在视觉识别上表现出色，但在推理方面通常不如LLMs。MLLM的出现，正是为了结合LLM和LVM的优势，实现对多模态信息的接收、推理和输出。由中国科学技术大学数据科学系和腾讯油图实验室的研究团队联合发表的一篇论文《A Survey on Multimodal Large Language Models》，系统地回顾了MLLMs的最新研究进展。图1展示了多模态大型语言模型（MLLMs）的发展历程。

架构

图2展示了一个典型的多模态大模型（MLLM）的架构，它由编码器（Encoder）、连接器（Connector）和大模型（LLM）组成。此外，还可以选择性地连接一个生成器（Generator），用于生成除文本之外的其他模态数据，如图像、音频或视频。

模态编码器（Modality Encoder）

模态编码器负责将原始信息如图像或音频压缩成更紧凑的表示形式。通常采用预训练的编码器，这些编码器已经在大规模图像-文本对上进行了预训练，从而与文本语义对齐。例如，CLIP模型就是这样一种编码器。Table 1 展示了一些常用的图像编码器变体，包括它们的预训练语料库、分辨率、样本数量和参数大小。在选择编码器时，会考虑分辨率、参数大小和预训练语料库等因素。特别是，许多研究已经证明使用更高分辨率的输入可以获得显著的性能提升。