kosmos-1论文阅读:Language Is Not All You Need: Aligning Perception with Language Models

介绍

kosmos-1是微软2023年的工作。正文17页,其中评估10页。
提出一个多模态大语言模型,具备感知通用模态、遵循指令、执行上下文学习的能力。模型在多模态语料库上,通过自回归的方式训练得到。论文还展示了从语言模型转为多模态语言模型,模型将新增一些能力(Raven IQ测试)。

和FLamingo的区别是,这个是从头训练了一个多模态模型模型,并且还进行了指令遵循训练。Flamingo的语言模型没有变动,只是训练了采样器和插入到语言模型每层的门控注意力,后者用于对齐。
说明,预训练+指令微调还是更强!

引言

大语言模型可以作为多种任务的通用接口,只要将输入输出转为文本。如何让大模型接收多模态数据?本工作提出KOSMOS-1模型,可以接收通用模态数据,同时仍具备指令遵循、上下文学习能力。测试表明该模型支持多种语言任务、视觉感知语言任务、及视觉任务,并且具备推理能力。

本文的关键内容(动机与工作
为什么要让大模型学会多模态数据感知
正确处理感知是迈向通用人工智能的必要步骤。感知多模态输入的能力对LLMs至关重要。首先多模态感知使LLMs能获得文本描述之外的常识性知识。其次,将感知与LLM相结合为机器人技术和文档智能等新任务打开了大门。第三,感知能力统一了各种API,因为图形用户界面是最自然、最统一的交互方式。例如,MLLMs可以直接读取屏幕或从收据中提取数字。我们在Web规模的多模态语料库上对KOSMOS-1模型进行训练,这保证了模型能够从不同来源学习。我们不仅使用大规模的文本语料库,而且从网络中挖掘出高质量的图文对和任意交错的图文文档。

语言模型可以作为一个通用的接口:根据METALM中提出的哲学,我们将语言模型作为一个通用任务层。由于开放式输出空间,我们能够将各种任务预测统一为文本。此外,自然语言指令和行为序列(action sequence)(例如编程语言)可以很好地被语言模型处理。LLMs同样也充当基本的推理器,它是在复杂任务上对感知模块的补充。因此,将世界、行为和多模态感知与通用接口(即语言模型)联系起来是很自然的事情。

多模态语言模型具备的新能力
1、通过使用自然语言指令和示例来进行零样本和小样本的多模态学习
2、通过进行Rave IQ test观察到它的非语言推理能力(图

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值