一文理解多模态大模型 MLLM

雪碧没气阿

于 2024-06-30 14:30:50 发布

阅读量296

点赞数 4

文章标签：人工智能 ai大模型大语言模型 LLMs 多模态大模型计算机技术 AGI

本文链接：https://blog.csdn.net/xxue345678/article/details/140080666

版权

简介

最近，多模态大型语言模型（LLMs）因其理解和生成多种数据类型内容的能力，受到了研究界和科技行业的广泛关注。

这些多模态模型基于单模态模型（如Chat-GPT）的基础原理，整合了视觉、听觉和文本数据，使其能够提供更丰富和更具上下文相关性的输出。

本文将简要概述多模态大型语言模型领域的背景及相关研究。

大型语言模型（LLMs）

近年来，人工智能领域最具突破性的进展之一是大型语言模型（LLMs）的发展和普及。这些模型以前所未有的规模运行，处理大量数据，以惊人的准确性执行语言任务。LLMs 的基础技术是对大规模文本语料库的训练。这种方法旨在向模型提供数十亿甚至数万亿个词语，帮助其理解语言结构、语义和上下文。如图所示，GPT-3 使用至少 10^12 tokens（万亿量级）训练语言模型。

此外,它们的参数大小也出现了指数级的增长。当今的大语言模型拥有数十亿甚至数万亿个参数,展示了它们庞大的计算能力。参数数量的增加不仅仅是追求规模,而且具有深远的影响。参数空间越大,模型就能更好地包含大量语料库中的细微差别。这是一种共生关系:随着可用数据量的增加,处理和理解这些数据的需求也越来越高,需要更大的参数空间。本质上,参数和数据规模的互相增长推动了这些模型的精度和适应性,使它们成为人工智能技术的前沿。

在训练这些大语言模型的过程中,一种特别重要的方法是"下一个词预测(nwp)"。

“下一词预测”是一种用于开发语言模型，特别是大型语言模型（LLMs）的训练技术。在这种方法中，模型的任务是预测给定序列或句子中的下一个词。例如，给定短语“It’s raining cats and”，模型可能会根据其训练预测下一个词是“dogs”。通过在不同的上下文中不断尝试预测下一个词，模型逐渐完善其对语言结构、语义和模式的理解。由于在训练期间反复接触无数序列，LLMs的语言生成能力变得越来越强，从而能够生成在人类连贯性和上下文上非常相似的文本。

指令调优

虽然LLMs在庞大的数据集上训练后对语言有全面的理解，但它们未必在专业任务上表现出色。就像医学领域的全科医生拥有广泛的知识但可能无法执行专业手术一样，未经过调优的LLMs可能无法为特定任务提供最佳结果。指令调优旨在弥补这一差距，使LLMs成为特定领域或功能的专家。

指令调优是LLMs的一种专门微调过程，将模型的通用知识缩小，使其在特定任务或指令上变得熟练。在LLM经过广泛语料库的广泛训练之后，指令调优将这种广泛的掌握精炼，以更高的准确性和精度处理特定查询或任务。

与模型初始训练阶段暴露于各种语言模式不同，指令调优使LLMs专注于遵循指令。指令调优通常使用包含明确指令的数据集来指导模型的学习轨迹。虽然初始训练优先考虑广泛理解，指令调优则强调在对特定查询的响应中实现精准和相关性。

如下图所示，在之前的预训练-微调方法中，模型经历了一个在广泛语料库上进行的初始预训练阶段，随后在一个更具任务针对性的数据集上进行微调。这种技术使模型能够利用预训练期间获得的广泛知识，并进一步为专业任务进行优化。

然而，这种方法通常需要大量标注数据进行微调，并且存在过拟合于特定数据集的固有风险。

另一方面，提示方法避免了额外的训练。相反，模型通过精心设计的提示来引导它们产生所需的输出。该方法的特点是能够避开任务中心的微调需求，并且适用于各种任务的适应性。

然而，寻找完美提示有时可能很难，比喻为一种艺术而非精确科学，而且无法保证响应的精确性或特异性。

最后，指令调优是一种将预训练的广泛知识库与任务一般训练的精确性无缝融合的方法。这种协调确保了模型在所有下游任务中的熟练度。

尽管如此，类似于预训练-微调方法，指令调优可能需要配有明确指令的不同数据集，且在广泛知识与精确特异性之间找到平衡仍然是关键。

多模态大型语言模型

LLMs在文本相关任务上取得了令人印象深刻的进展，展示了其在理解、生成和推理文本内容方面的能力。它们在解读语言复杂性和多样化文本数据集的细微差别方面表现出色。然而，LLMs领域的一个新兴挑战是其有效处理多模态数据的能力。

传统上，LLMs主要设计用于处理文本数据。因此，使它们理解和互动多模态输入（包括图像、视频和音频）面临重大挑战。

最近的进展提出了一种创新方法：利用LLMs强大的预训练知识库来适应多模态输入。通过这样做，希望像LLaMA这样的开源LLMs不仅能够处理，而且还能从多种数据类型中得出有意义的解释。这一演变旨在实现全面的多模态理解和推理，标志着朝着更多才多艺和全面的AI系统迈出了重要一步。如下图所示，Kosmos-1具备处理语言和视觉数据的能力。这使其能够推理、理解并生成对多模态输入的适当响应。

传统上，在这种情况下使用的方法采用视觉编码器，例如视觉转换器（ViT）。ViT的主要作用是将视觉数据转换为与大型语言模型（LLMs）兼容的嵌入空间。完成这一转换后，冻结的LLMs便被用来对融合的多模态输入令牌进行推理。

MLLMs 的训练过程

LLMs主要设计用于处理文本数据。另一方面，预训练的视觉编码器则专门用于管理和解释图像数据。鉴于它们输入模式的不同性质，整合两者需要一种特殊的方法。

为了弥合这一差距，当前的多模态LLMs采用了一种战略性过程，首先将图像嵌入与LLM的嵌入空间对齐。这种对齐是通过一个集中的多模态预训练阶段来实现的。在这个阶段，重点放在自回归学习上。这种方法涉及使用大量和多样的图像-文本对来训练系统。

其背后的想法是教导LLM将图像与其文本描述相关联。通过为每张呈现的图像生成准确且相关的标题，LLM被训练提取图像中的关键语义。这一实践确保了当面对新的或不熟悉的图像时，LLM能够识别其核心元素并将其转化为连贯的描述性标题。

在此之后，还有一个进一步的细化阶段，称为指令调优。为此，数据集被专门构建为多模态的。这些独特的数据集包含指令、图像和相应文本的混合体。通过在这些数据集上进行训练，多模态LLMs不仅熟悉了图像，还熟悉了与之相关的人类指令。这最终形成了一个复杂的系统，使多模态LLMs能够以类似于标准LLMs的方式处理和响应指令。

常见 MLLM 模型架构

多模态大型语言模型（MLLMs）的标准范式是将视觉专家从图像或视频中提取的视觉嵌入插入到预训练的语言嵌入空间中。MLLMs通常有三个常见组件：

预训练的大型语言模型
视觉骨干网络
多模态对齐桥接器

我们将介绍几个重要的工作，以说明当前如何实现MLLMs。

BLIP2

“通过冻结的图像编码器和大型语言模型进行语言-图像预训练”（BLIP2）是多模态语言模型领域的一种新方法。它提供了一种通用且高效的预训练策略，利用现成的冻结预训练图像编码器和冻结的大型语言模型。

BLIP-2的框架由三个主要组件组成：预训练的大型语言模型、视觉骨干网络（冻结的图像编码器）和用于多模态对齐的查询变换器。通过利用这些组件，BLIP-2实现了最先进的性能，并展示了构建先进的多模态对话AI代理的潜力。

BLIP-2的核心思想是使用轻量级查询变换器（Q-Former）来弥合视觉和语言之间的模态差距，如下图所示。

这个变换器通过两个阶段的预训练来实现。在第一个阶段，它通过从冻结的图像编码器中提取视觉特征来学习视觉-语言表示。在第二个阶段，它通过连接到冻结的语言模型专注于视觉到语言的生成学习。这种两阶段的预训练方法实现了有效的视觉-语言对齐，并生成高质量的文本输出。

BLIP-2的一个显著优势是在各种视觉-语言任务上的卓越表现，超过了以前的方法，同时使用了显著更少的可训练参数。例如，BLIP-2在零样本VQAv2任务上比Flamingo80B高出8.7%，尽管其可训练参数少了54倍。此外，BLIP-2还展示了在零样本图像到文本生成中的新兴能力，能够遵循自然语言指令生成相关的文本描述。

总之，BLIP-2通过有效利用冻结的预训练图像编码器和大型语言模型，提出了一种有前景的多模态语言建模方法。其创新的两阶段预训练策略和轻量级查询变换器在各种视觉-语言任务上表现出色，使其成为开发多模态对话AI代理的重要一步。

LLAVA

LLAVA（Large Language and Vision Assistant）是一种端到端训练的大型多模态模型，可以遵循指令。它旨在连接视觉编码器和大型语言模型（LLM），以实现通用的视觉和语言理解。

LLAVA的架构结合了CLIP的开放集视觉编码器和语言解码器LLaMA。这些组件随后在生成的指令性视觉-语言数据上进行了微调。该论文提出了一种数据重构视角和管道，将图像-文本对转换为适当的指令跟随格式，使用语言专用的GPT-4。

LLAVA的实验展示了令人印象深刻的多模态聊天能力。模型在未见过的图像/指令上表现出类似于多模态GPT-4的行为，并在合成多模态指令跟随数据集上达到了85.1%的相对得分。通过在科学问答数据集上进行微调，LLAVA和GPT-4的结合达到了新的最先进准确率92.53%。

该论文还强调了LLAVA的开源性质。生成的多模态指令数据、数据生成和模型训练的代码库、模型检查点和一个视觉聊天演示都公开可用。

总的来说，LLAVA在多模态领域的指令调优大型语言模型方面代表了一个重要进步。它展示了语言专用的GPT-4在生成多模态语言-图像指令跟随数据方面的潜力，并在通用视觉和语言理解任务中显示出有希望的结果。

KosMos-1

KOSMOS-1旨在感知一般模态、在上下文中学习并遵循指令。KOSMOS-1的目标是将感知与语言模型对齐，使其能够基于多模态输入理解和生成文本。

该模型在网页规模的多模态语料库上训练，包括文本数据、图像-标题对和包含交错图像和文本的文档。多样化的训练数据使KOSMOS-1能够从各种来源中稳健学习，并在广泛的任务上表现出色。

KOSMOS-1包含一个基于变换器的语言模型作为通用界面，并集成了感知模块。该模型可以通过将文本令牌和其他模态（如图像）嵌入向量来处理多模态输入。然后，变换器解码器根据输入上下文生成输出。

KOSMOS-1的训练目标是最大化示例中令牌的对数似然，使用下一令牌预测任务。该模型在单模态数据上进行表示学习，在跨模态配对数据上对齐感知与语言，并在交错多模态数据上进行多模态语言建模。

总之，KOSMOS-1是一个强大的多模态大型语言模型，结合了语言理解和感知的能力。它为将语言模型应用于多模态任务打开了新的可能性，推进了通用人工智能领域的发展。

MINI-GPT4

Mini-GPT4被提出用于检验GPT-4的高级多模态生成能力，该模型展示了卓越的能力，如从手写文本生成网站和识别图像中的幽默元素。

如图15所示，Mini-GPT4使用一个投影层将冻结的视觉编码器与一个称为Vicuna的冻结大型语言模型（LLM）对齐。视觉编码器基于EVA-CLIP的ViT-G/14骨干和一个Q-Former。作者发现，Mini-GPT4具有与GPT-4类似的许多能力，如生成详细的图像描述和根据手写草稿创建网站。

在实验中，作者观察到，仅在原始图像-文本对上预训练Mini-GPT4可能会导致生成的不自然语言输出，缺乏连贯性，包括重复和碎片化的句子。为了解决这个问题，他们在训练的第二阶段精心策划了一个高质量、对齐良好的数据集。他们使用对话模板微调模型，这显著提高了生成语言的自然性及其整体可用性。

作者强调，Mini-GPT4在计算上非常高效，因为它仅需要使用约500万对齐的图像-文本对训练一个投影层。他们提供了代码、预训练模型和收集的数据集以供进一步探索。

总的来说，Mini-GPT4通过将视觉特征与先进的大型语言模型对齐，展示了新兴的视觉语言能力。它展示了与GPT-4类似的能力，还展示了其他能力，如根据给定的图像写故事和诗歌，提供图像中问题的解决方案，并根据食物照片教用户烹饪。模型的性能通过使用高质量对齐数据集和使用对话模板微调得到了增强。

LLaMA-Adapter

LLaMA-Adapter是一种参数高效的视觉指令模型，旨在将大型语言模型（LLMs）转变为指令跟随模型。它基于LLaMA模型，引入了带有零初始化注意力的轻量级适配器到冻结的LLaMA中进行微调。这种方法允许高效地整合新知识和多模态知识注入。

为了增强LLaMA-Adapter的语言指令跟随能力，引入了线性层的偏置调优。通过解锁更多可学习参数，如归一化、层偏置和缩放，指令跟随知识在整个LLM中传播。这种偏置调优只占模型参数的一小部分，确保其参数效率。

LLaMA-Adapter V2是LLaMA-Adapter的扩展，进一步提高了多模态推理能力。它采用早期融合策略来平衡视觉和语言微调目标。通过将动态视觉提示分配给LLM的早期层，解决了图像-文本对齐和指令跟随之间的干扰。

此外，LLaMA-Adapter V2集成了专家模型，如标注、检测和OCR系统，以增强其图像理解能力。这种集成允许高效的零样本和无需训练的视觉指令理解。

总的来说，LLaMA-Adapter及其扩展LLaMA-Adapter V2提供了一种参数高效的方法，将LLMs转变为视觉指令模型。它们通过利用语言指令数据和图像-文本对实现了强大的多模态推理能力，而无需大量的多模态指令数据。

Macaw-LLM

MACAW-LLM是一种新颖的多模态语言模型，能够无缝整合视觉、音频和文本信息。它由三个主要组件组成：用于编码多模态数据的模态模块、用于利用预训练语言模型的认知模块和用于协调多样化表示的对齐模块。

MACAW-LLM的模态模块使模型能够有效处理多种模态，如图像、视频、音频和文本。该模块将额外的模态编码器（如CLIP-VIT-B/16用于视觉信息和WHISPER-BASE用于音频信号）集成到模型架构中。

MACAW-LLM的对齐模块解决了对齐不同模态编码器表示的挑战。它统一了来自不同模态的表示，使多模态信息的有效整合成为可能。这种对齐通过一种注意力机制实现，将视觉和音频表示与文本嵌入空间对齐。

MACAW-LLM的认知模块利用预训练语言模型，如LLAMA-7B，作为模型的基础。这些语言模型在理解和遵循人类指令方面表现出色。在MACAW-LLM中，认知模块还作为文本模态编码器。

与需要两阶段训练的以往多模态模型不同，MACAW-LLM采用一步指令微调过程。这简化了适应过程，促进了更简单的学习体验。通过最小化响应相对于模型参数的负对数似然来微调模型。

为了促进多模态语言模型的研究，MACAW-LLM的作者还构建了一个大规模的多模态指令数据集。该数据集涵盖了广泛的指令任务，并包括图像和视频实例。数据集公开可用，并提供代码和模型，以鼓励未来在多模态语言建模方面的研究。

总之，MACAW-LLM是一种有前途的多模态语言模型，有效整合了视觉、音频和文本信息。它引入了新的组件，如对齐模块，并通过一步指令微调简化了适应过程。该模型及其构建的数据集为多模态语言建模的研究开辟了新的可能性。

Kosmos-2

KosMos-2被设计为具有感知对象描述和将文本与视觉世界相结合的新能力。

KosMos-2 是一个基于Transformer的因果语言模型，使用下一词预测任务进行训练。它基于之前的模型KOSMOS-1，集成了定位和指代能力，使KosMos-2能够理解多模态输入、遵循指令、感知对象描述（如边界框）并将语言与视觉世界相结合。

为了训练具备定位能力的KosMos-2，作者构建了一个名为GRIT（Grounded Image-Text pairs）的大规模数据集。该数据集由图像-文本对组成，其中文本跨度（如名词短语和指称表达）使用位置标记链接到相应的图像区域。作者描述了一个提取和链接这些文本跨度到图像区域的流程。

KosMos-2采用与KOSMOS-1相同的模型架构和训练目标，但在训练数据中加入了定位的图像-文本对。模型学习编码位置标记并将其与文本标记关联，使其能够将文本输出与视觉世界相结合。作者提供了KosMos-2的输入表示细节，包括图像嵌入、定位标记和位置标记。

论文评估了KosMos-2在各种任务上的表现，包括多模态定位（如指称表达理解和短语定位）、多模态指称（如指称表达生成）、感知-语言任务（如图像描述和视觉问答）以及语言理解和生成任务。结果展示了KosMos-2在这些任务中的有效性，并突出了其在定位和指称方面的新能力。

总体而言，KosMos-2通过集成定位和指称能力，代表了多模态大语言模型的重大进展。它为体现人工智能的发展铺平了道路，并有助于语言、多模态感知、行动和世界建模的融合，这是迈向通用人工智能的关键一步。

Shikra

Shikra是一个多模态大语言模型（MLLM），旨在解决当前MLLM在处理指称对话方面的不足，这是人类交流的一个重要方面。与现有模型不同，Shikra能够理解和生成自然语言形式的空间坐标输入和输出。

Shikra的架构由三个主要组件组成：视觉编码器、对齐层和大语言模型（LLM）。设计简洁明了，无需额外的词汇、位置编码器、前/后检测模块或外部插件模型。所有输入和输出均以自然语言数字形式表示。

Shikra能够处理各种视觉-语言任务，包括与位置相关的任务如REC和PointQA，以及传统任务如图像描述和视觉问答（VQA）。实验结果显示Shikra在这些任务中的表现令人鼓舞。

Shikra的一大特点是其能够与用户进行指称对话。它可以理解和回应场景中特定位置的引用，不仅能够口头解释，还能在空间上进行解释。这为许多令人兴奋的应用打开了大门，如在思维链中提供提及对象的坐标和比较用户指向区域的相似性。

为了训练Shikra，使用了重新组织的公共数据集和来自Flickr30K Entities的高质量指称对话数据。模型训练过程中无需额外的前/后检测器或用于位置信息的特殊编码器。

总之，Shikra是一个统一且简洁的MLLM，能够处理自然语言形式的空间坐标输入和输出，弥补了当前MLLM在理解和参与指称对话方面的不足，在各种视觉-语言任务中表现出色。

GPT4V

具备视觉能力的GPT-4（GPT-4V）代表了人工智能的一个先进阶段，用户可以提供图像输入与文本一同进行分析。这种多模态整合（如图像）到大语言模型（LLMs）中被视为AI研究中的一个重要发展。多模态LLMs如GPT-4V扩展了仅限文本系统的能力，提供了新的界面和功能。它们可以处理多样化的任务，并提供独特的用户体验。

最初，GPT-4V的预训练涉及使用从互联网上和许可数据源获取的大量文本和图像数据集进行下一词预测。随后，它通过人类反馈强化学习（RLHF）进行微调，使其输出与人类偏好对齐。

GPT-4V的一个关键特性是其处理交错的图像-文本输入的能力。这些输入可以是以视觉为主，如多个图像加简短问题，或以文本为主，如长网页加少量图像，或两者的平衡组合。这种多样性允许范围广泛的应用。例如，GPT-4V可以从多个收据图像中计算总税额，或从多个图像中提取特定信息。它还可以跨这些混合输入关联数据（图20），如识别菜单上的啤酒价格、计算总费用等。此外，这种处理交错图像-文本输入的能力对于高级应用（如上下文少样本学习和测试时提示技术）至关重要，进一步增强了GPT-4V的实用性。

此外，GPT-4V基于视觉信息的理解和生成能力使其能够在创意工作中提供帮助，如图形设计、艺术生成和视觉故事讲述。它可以分析和解释视觉艺术风格，提出设计布局改进建议，甚至根据详细的文本描述创建图像。这一特性特别有利于需要融合文本和视觉见解的创意领域专业人士。

Gemini

最近，Google推出了Gemini，一个类似于GPT-4(V)的多模态大语言模型，但具有独特的特点。它通过包括图像、音频、视频和文本在内的多种数据类型进行训练，旨在成为这些模态的通用模型，同时推动领域特定理解和推理的界限。

Gemini通过其三个定制大小模式脱颖而出：Ultra、Pro和Nano，如图21所示。Ultra模式设计用于高度复杂的任务，提供三者中最强大的能力。Pro模式平衡了先进性能和可扩展性，适合广泛部署。Nano模式则优化用于设备上的应用，满足紧凑但高效的AI解决方案需求。

Gemini 1.0 提供这三种不同的大小模式，每种模式设计用于广泛的应用。这样的灵活性和范围使Gemini成为多模态大语言模型领域的强大选手，推动了最先进技术的发展，拓宽了AI应用的视野。

该模型在大规模语言建模、图像理解、音频处理和视频解释方面设立了新的基准。令人印象深刻的是，Gemini Ultra在大多数基准测试中取得了突破性成果，在32个基准测试中的30个中表现领先。这些测试涵盖了从文本推理到图像理解、视频解释，甚至语音识别和翻译的广泛领域。

Gemini的性能基于其Transformer解码器，如图23所示，增强了架构和优化改进。这些调整促进了稳定的大规模训练和在Google的Tensor Processing Units上的高效执行。一个显著特性是其对32,000词上下文长度的支持，通过多查询注意机制（MQA）等高效注意机制实现。Gemini支持交错的文本、图像、音频和视频序列作为输入。它可以输出包含交错图像和文本的响应。

多模态大语言模型（MLLMs）的评估

在多模态指令调优后，有几种方法可用来评估模型的性能。这些方法大致可以根据问题类型分为两类：封闭集和开放集评估，以及定性评估。

封闭集问题代表了一类特定的问题类型，其潜在答案的范围严格定义并限制在预定的集合内。这些问题使评估模型在下游任务上的性能变得清晰而系统，主要因为有一个有限的正确答案集合可供参考。

在评估模型对封闭集问题的表现时，开源数据集通常是首选。鉴于这些问题中答案的预定义特性，基准指标是衡量响应效果的自然工具。

一个显著的例子是Instruct-BLIP 如何进行评估；它在ScienceQA 数据集上报告准确性指标，并使用CIDEr分数衡量模型在NoCaps 和Flickr30K 等数据集上的表现。

这一领域的评估场景通常与两种主要设置一致：

零样本评估：在这种设置中，模型被置于包含各种通用任务的多样化数据集上。这些数据集被策略性地分为“保留”集，用于调优，以及“保留”集，用于性能评估。主要目标是评估模型在未见过的数据集或任务上的表现，这些数据集或任务不属于其训练数据的一部分。

表1 InstructBLIP在保留数据集上的零样本结果

微调评估：这种方法更为集中，通常用于特定领域的任务。在这里，模型被微调以在特定领域内表现出色。这些微调后的模型随后在专门为该领域策划的测试数据集上进行评估，以查看它们在适应任务的特殊需求方面的表现。

然而，需要注意的是，上述评估方法通常局限于少数任务或数据集。这种局限性凸显了缺乏广泛的定量比较。认识到这一缺陷，集中努力引入了专门为MLLMs设计的新基准。

一个典型的例子是Fu等人所开展的工作，他们推出了一个名为MME的详尽评估基准。这一基准提供了一个专门为多模态大语言模型设计的全面评估平台。MME的独特特性使其在以往评估基准中脱颖而出：

全面检查：MME不仅专注于MLLMs的一个方面。它评估感知和认知能力。感知能力涵盖了不同细粒度的对象识别——从存在、计数和颜色等基本特征到电影海报、地标和艺术作品中的更复杂细节。另一方面，认知能力更为高级，涉及常识推理、数值计算、文本翻译和代码推理等任务。

手动构建：为减轻公共数据集中固有的数据泄漏和偏见问题，MME基准的指令-答案对均为手动构建。在使用公共数据集时，仅使用图像，而没有使用其原始注释。此外，该基准还包括来源于真实照片和生成图像的数据。

简明指令：为了在不同MLLMs之间实现公平评估并避免提示工程偏差，MME提供简明且符合人类认知的指令。目标是任何高效的MLLM都应该能够基于此类简单提示理解并执行任务。

定量分析：评估MLLMs时的主要挑战之一是开放式响应的量化。MME通过设计使模型回答“是”或“否”的指令，简化了统计分析过程。尽管考虑过多选题，但发现当前MLLMs可能难以遵循如此复杂的指令。

在其广泛研究中，MME对12个最先进的MLLMs在14个不同子任务上的零样本表现进行了评估。结果突出显示了这些模型在MME基准上的性能差异。除了展示这些MLLMs的能力外，评估还揭示了一些关键问题，如某些模型无法遵循基本指令、缺乏基础感知和推理能力，以及对对象幻觉的倾向。

总之，MME基准不仅是一个评估工具，而是推动多模态大语言模型发展的开创性举措，通过提供全面评估方法，设定了未来基准的黄金标准。

此外，SEED-Bench 也被引入以解决先前基准在评估MLLMs生成理解能力方面的挑战和局限性。与依赖于有限的定性示例或非专门针对MLLMs的基准不同，SEED-Bench提供了一个更全面和客观的评估平台。

SEED-Bench由一个庞大的19K多选问题组成，这些问题均由人类精心注释。与之前的基准相比，这使得其评估指标更为稳定可靠，规模是之前基准的六倍。它涵盖了12个不同的评估维度，包含图像和视频模态，提供了MLLMs能力的全面衡量标准。

SEED-Bench的创建涉及一个先进的多选题生成流程，针对特定评估维度。这一流程结合了自动过滤过程和手动验证，确保了问题及其对应的真实答案的质量和准确性。问题设计旨在评估模型在空间和时间维度上的理解能力。对于图像特定问题的生成，基础模型被用于提取各种视觉信息层次。这包括图像级别的标题、实例级别的描述和文本元素。视频模态则利用原始人类注释提供视觉上下文。所有这些视觉数据都通过ChatGPT/GPT-4进行处理，生成四个候选答案的问题，其中一个是正确的或真实答案。

SEED-Bench的另一个关键特性是其可扩展性。其流程支持增加更多评估维度，使其能够发展并适应MLLMs领域的新兴研究领域和进展。

通过利用SEED-Bench，研究人员评估了18种不同的模型，涵盖了LLMs、ImageLLMs和VideoLLMs的所有12个评估维度。

初步发现显示，大多数MLLMs在整体性能上还有提升空间。特别是，VideoLLMs在时间理解方面落后于ImageLLMs。

总之，SEED-Bench被视为推动MLLMs领域未来研究的催化剂。

引入评估平台和维护的排行榜，确保了研究社区有一个一致可靠的媒介来评估和比较不同模型的能力。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

雪碧没气阿

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
一文理解多模态大模型 MLLM

最近，多模态大型语言模型（LLMs）因其理解和生成多种数据类型内容的能力，受到了研究界和科技行业的广泛关注。这些多模态模型基于单模态模型（如Chat-GPT）的基础原理，整合了视觉、听觉和文本数据，使其能够提供更丰富和更具上下文相关性的输出。本文将简要概述多模态大型语言模型领域的背景及相关研究。
复制链接

扫一扫