今天分享的是AI大模型系列深度研究报告:《AI大模型专题:多模态,AI大模型新一轮革命》。
(报告出品方:华福证券)
报告共计:28页
来源:人工智能学派
多模态或成为 AI 大模型主流
相比单模态,多模态向通用人工智能(AGI)迈前一步。多模态大模型同时处理文本、图片、音频以及视频等多类信息,与现实世界融合度高,有望成为人类智 能助手,推动 AI 迈向 AGI:
1)多模态更符合人类接收、处理和表达信息的方式。 人类能够感知多元信息,每一类信息均为一种模态,这些信息往往是相互关联的。
2) 多模态信息使得大模型更为智能。多模态与用户交互方式更便捷,得益于多模态输 入的支持,用户可以更灵活的方式与智能助手进行交互和交流。
3)多模态提升任务 解决能力。LLM 通过可以执行 NLP 任务,而多模态通常可以执行更大范围的任务。
目前,多模态大模型已成为大模型发展前沿方向。2022 年及之前,大模型处于 单模态预训练大模型阶段,主要探索文本模式的输入输出。2017 年,Transformer 模 型提出,奠定了当前大模型的主流算法结构;2018 年,基于 Transformer 架构训练的 BERT 模型问世,参数规模首次突破 3 亿;随后 GPT 系列模型推出,2022 年底至今 ChatGPT 引爆全球大模型创新热潮。步入 2023 年,大模型发展从文本、图像等单模 态任务逐渐发展为