多模态大模型最全综述

科学禅道

已于 2023-11-04 15:56:25 修改

阅读量317

点赞数

文章标签：人工智能

于 2023-11-04 11:35:13 首次发布

由微软7位华人研究员撰写--多模态基础模型已经从专用走向通用

它从目前已经完善的和还处于最前沿的两类多模态大模型研究方向出发，全面总结了五个具体研究主题：

视觉理解
视觉生成
统一视觉模型
LLM加持的多模态大模型
多模态agent

1、谁适合阅读这份综述？

只要你想学习多模态基础模型的基础知识和最新进展，不管你是专业研究员，还是在校学生，它都是你的“菜”。

一起来看看～

2、摸清多模态大模型现状

这五个具体主题中的前2个为目前已经成熟的领域，后3个则还属于前沿领域。

2.1、视觉理解

这部分的核心问题是如何预训练一个强大的图像理解backbone。

如下图所示，根据用于训练模型的监督信号的不同，我们可以将方法分为三类：
标签监督、语言监督（以CLIP为代表）和只有图像的自监督。

其中最后一个表示监督信号是从图像本身中挖掘出来的，流行的方法包括对比学习、非对比学习和masked image建模。

在这些方法之外，文章也进一步讨论了多模态融合、区域级和像素级图像理解等类别的预训练方法。

还列出了以上这些方法各自的代表作品。

2.2、视觉生成

这个主题是AIGC的核心，不限于图像生成，还包括视频、3D点云图等等。

并且它的用处不止于艺术、设计等领域——还非常有助于合成训练数据，直接帮助我们实现多模态内容理解和生成的闭环。

在这部分，作者重点讨论了生成与人类意图严格一致的效果的重要性和方法（重点是图像生成）。

具体则从空间可控生成、基于文本再编辑、更好地遵循文本提示和生成概念定制（concept customization）四个方面展开。

在本节最后，作者还分享了他们对当前研究趋势和短期未来研究方向的看法。

即，开发一个通用的文生图模型，它可以更好地遵循人类的意图，并使上述四个方向都能应用得更加灵活并可替代。

同样列出了四个方向的各自代表作：

2.3、统一视觉模型

这部分讨论了构建统一视觉模型的挑战：

一是输入类型不同；

二是不同的任务需要不同的粒度，输出也要求不同的格式；

三是在建模之外，数据也有挑战。

比如不同类型的标签注释成本差异很大，收集成本比文本数据高得多，这导致视觉数据的规模通常比文本语料库小得多。

不过，尽管挑战多多，作者指出：

CV领域对于开发通用、统一的视觉系统的兴趣是越来越高涨，还衍生出来三类趋势：

一是从闭集（closed-set）到开集（open-set），它可以更好地将文本和视觉匹配起来。

二是从特定任务到通用能力，这个转变最重要的原因还是因为为每一项新任务都开发一个新模型的成本实在太高了；

三是从静态模型到可提示模型，LLM可以采用不同的语言和上下文提示作为输入，并在不进行微调的情况下产生用户想要的输出。我们要打造的通用视觉模型应该具有相同的上下文学习能力。

2.4、LLM加持的多模态大模型

本节全面探讨多模态大模型。

先是深入研究背景和代表实例，并讨论OpenAI的多模态研究进展，确定该领域现有的研究空白。

接下来作者详细考察了大语言模型中指令微调的重要性。

再接着，作者探讨了多模态大模型中的指令微调工作，包括原理、意义和应用。

最后，涉及多模态模型领域中的一些高阶主题，方便我们进行更深入的了解，包括：

更多超越视觉和语言的模态、多模态的上下文学习、参数高效训练以及Benchmark等内容。

2.5、多模态agent

所谓多模态agent，就是一种将不同的多模态专家与LLM联系起来解决复杂多模态理解问题的办法。

这部分，作者主要先带大家回顾了这种模式的转变，总结该方法与传统方法的根本差异。

然后以MM-REACT为代表带大家看了这种方法的具体运作方式。

接着全面总结了如何构建多模态agent，它在多模态理解方面的新兴能力，以及如何轻松扩展到包含最新、最强的LLM和潜在的数百万种工具中。

当然，最后也是一些高阶主题讨论，包括如何改进/评估多多模态agent，由它建成的各种应用程序等。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
多模态大模型最全综述

多模态基础模型已经从专用走向通用.它从目前已经完善的和还处于最前沿的两类多模态大模型研究方向出发，全面总结了五个具体研究主题：视觉理解视觉生成统一视觉模型LLM加持的多模态大模型多模态agent
复制链接

扫一扫

科学禅道

CSDN认证博客专家 CSDN认证企业博客

码龄15年

294: 原创

4322: 周排名

4298: 总排名

26万+: 访问

: 等级

7293: 积分

3174: 粉丝

4193: 获赞

57: 评论

3093: 收藏

私信

关注

热门文章

分类专栏

最新评论

投影与降维
科学禅道: 感谢感谢，可以多多交流，共同进步~
投影与降维
科学禅道: 感谢感谢，其实我也是在记录学习的过程中有一些心得体会和收获。总结下来，分享出来，希望对大家有所助益，也对自己有所帮助，众乐乐，独乐乐~
投影与降维
Kwan的解忧杂货铺: 博主的文章一直都是我的学习指南，内容详实，让我从中获益良多，每篇博文都是知识的瑰宝，我真的很喜欢你的风格，你的博客内容深入浅出，总是让我不再感到学习的困难，期待你的下一次精彩分享。
投影与降维
普通网友: 优质好文，支持支持。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
如何学习训练大模型——100条建议（附详细说明）
科学禅道: 其中有AI辅助创作的部分。总体上觉得有启发性，所以分享出来，纯属分享交流，大家各取所需哈~

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。