人工智能咨询培训老师叶梓 转载标明出处
尽管LLMs在自然语言处理(NLP)任务上表现出色,但它们在视觉方面是“盲”的,即只能理解离散的文本信息。与此同时,大型视觉模型(LVMs)虽然在视觉识别上表现出色,但在推理方面通常不如LLMs。MLLM的出现,正是为了结合LLM和LVM的优势,实现对多模态信息的接收、推理和输出。由中国科学技术大学数据科学系和腾讯油图实验室的研究团队联合发表的一篇论文《A Survey on Multimodal Large Language Models》,系统地回顾了MLLMs的最新研究进展。图1展示了多模态大型语言模型(MLLMs)的发展历程。
架构
图2展示了一个典型的多模态大模型(MLLM)的架构,它由编码器(Encoder)、连接器(Connector)和大模型(LLM)组成。此外,还可以选择性地连接一个生成器(Generator),用于生成除文本之外的其他模态数据,如图像、音频或视频。
模态编码器(Modality Encoder)
模态编码器负责将原始信息如图像或音频压缩成更紧凑的表示形式。通常采用预训练的编码器,这些编码器已经在大规模图像-文本对上进行了预训练,从而与文本语义对齐。例如,CLIP模型就是这样一种编码器。Table 1 展示了一些常用的图像编码器变体,包括它们的预训练语料库、分辨率、样本数量和参数大小。在选择编码器时,会考虑分辨率、参数大小和预训练语料库等因素。特别是,许多研究已经证明使用更高分辨率的输入可以获得显著的性能提升。
预训练的大模型(Pre-trained LLM)
与从头开始训练一个大模型相比,使用预训练模型更为高效和实用。预训练模型已经在网络语料库上进行了大量预训练,嵌入了丰富的世界知识,并展现出强大的泛化和推