多模态大模型最全综述来了!
由微软7位华人研究员撰写,足足119页——
它从目前已经完善的和还处于最前沿的两类多模态大模型研究方向出发,全面总结了五个具体研究主题:
-
视觉理解
-
视觉生成
-
统一视觉模型
-
LLM加持的多模态大模型
-
多模态agent
并重点关注到一个现象:
多模态基础模型已经从专用走向通用。
Ps. 这也是为什么论文开头作者就直接画了一个哆啦A梦的形象。
谁适合阅读这份综述(报告)?
用微软的原话来说:
只要你想学习多模态基础模型的基础知识和最新进展,不管你是专业研究员,还是在校学生,它都是你的“菜”。
一起来看看~
一文摸清多模态大模型现状
这五个具体主题中的前2个为目前已经成熟的领域,后3个则还属于前沿领域。
1、视觉理解
这部分的核心问题是如何预训练一个强大的图像理解backbone。
如下图所示,根据用于训练模型的监督信号的不同,我们可以将方法分为三类:
标签监督、语言监督(以CLIP为代表)和只有图像的自监督。
其中最后一个表示监督信号是从图像本身中挖掘出来的,流行的方法包括对比学习、非对比学习和masked image建模。
在这些方法之外,文章也进一步讨论了多模态融合、区域级和像素级图像理解等类别的预训练方法。
还列出了以上这些方法各自的代表作品。
2、视觉生成
这个主题是AIGC的核心,不限于图像生成,还包括视频、3D点云图等等。
并且它的用处不止于艺术、设计等领域——还非常有助于合成训练数据,直接帮助我们实现多模态内容理解和生成的闭环。
在这部分,作者重点讨论了生成与人类意图严格一致的效果的重要性和方法(重点是图像生成)。
具体则从空间可控生成、基于文本再编辑、更好地遵循文本提示和生成概念定制(concept customization)四个方面展开。
在本节最后,作者还分享了他们对当前研究趋势和短期未来研究方向的看法。
即,开发一个通用的文生图模型,它可以更好地遵循人类的意图,并使上述四个方向都能应用得更加灵活并可替代。
同样列出了四个方向的各自代表作:
3、统一视觉模型
这部分讨论了构建统一视觉模型的挑战:
一是输入类型不同;
二是不同的任务需要不同的粒度,输出也要求不同的格式;
三是在建模之外,数据也有挑战。
比如不同类型的标签注释成本差异很大,收集成本比文本数据高得多,这导致视觉数据的规模通常比文本语料库小得多。
不过,尽管挑战多多,作者指出:
CV领域对于开发通用、统一的视觉系统的兴趣是越来越高涨,还衍生出来三类趋势:
一是从闭集(closed-set)到开集(open-set),它可以更好地将文本和视觉匹配起来。
二是从特定任务到通用能力,这个转变最重要的原因还是因为为每一项新任务都开发一个新模型的成本实在太高了;
三是从静态模型到可提示模型,LLM可以采用不同的语言和上下文提示作为输入,并在不进行微调的情况下产生用户想要的输出。我们要打造的通用视觉模型应该具有相同的上下文学习能力。
4、LLM加持的多模态大模型
本节全面探讨多模态大模型。
先是深入研究背景和代表实例,并讨论OpenAI的多模态研究进展,确定该领域现有的研究空白。
接下来作者详细考察了大语言模型中指令微调的重要性。
再接着,作者探讨了多模态大模型中的指令微调工作,包括原理、意义和应用。
最后,涉及多模态模型领域中的一些高阶主题,方便我们进行更深入的了解,包括:
更多超越视觉和语言的模态、多模态的上下文学习、参数高效训练以及Benchmark等内容。
5、多模态agent
所谓多模态agent,就是一种将不同的多模态专家与LLM联系起来解决复杂多模态理解问题的办法。
这部分,作者主要先带大家回顾了这种模式的转变,总结该方法与传统方法的根本差异。
然后以MM-REACT为代表带大家看了这种方法的具体运作方式。
接着全面总结了如何构建多模态agent,它在多模态理解方面的新兴能力,以及如何轻松扩展到包含最新、最强的LLM和潜在的数百万种工具中。
当然,最后也是一些高阶主题讨论,包括如何改进/评估多多模态agent,由它建成的各种应用程序等。
作者介绍
本报告一共7位作者。
发起人和整体负责人为Chunyuan Li。
他是微软雷德蒙德首席研究员,博士毕业于杜克大学,最近研究兴趣为CV和NLP中的大规模预训练。
他负责了开头介绍和结尾总结以及“利用LLM训练的多模态大模型”这章的撰写。
核心作者一共4位:
- Zhe Gan
目前已进入Apple AI/ML工作,负责大规模视觉和多模态基础模型研究。此前是Microsoft Azure AI的首席研究员,北大本硕毕业,杜克大学博士毕业。
- Zhengyuan Yang
微软高级研究员,罗切斯特大学博士毕业,获得了ACM SIGMM杰出博士奖等荣誉,本科就读于中科大。
- Jianwei Yang
微软雷德蒙德研究院深度学习小组首席研究员。佐治亚理工学院博士毕业。
- Linjie Li(女)
Microsoft Cloud & AI计算机视觉组研究员,普渡大学硕士毕业。
他们分别负责了剩下四个主题章节的撰写。
综述地址:
https://arxiv.org/abs/2309.10020
如何学习大模型 AGI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
-END-
👉AGI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉AGI大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉AGI大模型视频和PDF合集👈
观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费
】🆓