Visual ChatGPT：可以处理复杂视觉任务的对话系统

最新推荐文章于 2024-04-18 10:12:39 发布

lalula1999

最新推荐文章于 2024-04-18 10:12:39 发布

阅读量414

点赞数

分类专栏：大模型文章标签： chatgpt 人工智能计算机视觉

本文链接：https://blog.csdn.net/weixin_44386956/article/details/131516091

版权

大模型专栏收录该内容

6 篇文章 1 订阅

订阅专栏

文章目录

Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models论文阅读

Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models论文阅读

Abstract

ChatGPT is attracting a cross-field interest as it provides a language interface with remarkable conversational competency and reasoning capabilities across many domains.However, since ChatGPT is trained with languages, it is currently not capable of processing or generating images from the visual world. At the same time, Visual Foundation Models, such as Visual Transformers or Stable Diffusion, although showing great visual understanding and generation capabilities, they are only experts on specific tasks with one-round fixed inputs and outputs. To this end, We build a system called Visual ChatGPT, incorporating different Visual Foundation Models, to enable the user to interact with ChatGPT by 1) sending and receiving not only languages but also images 2) providing complex visual questions or visual editing instructions that require the collaboration of multiple AI models with multi-steps. 3) providing feedback and asking for corrected results. We design a series of prompts to inject the visual model information into ChatGPT, considering models of multiple inputs/outputs and models that require visual feedback. Experiments show that Visual ChatGPT opens the door to investigating the visual roles of ChatGPT with the help of Visual Foundation Models. Our system is publicly available at https: //github.com/microsoft/visual-chatgpt.

摘要

ChatGPT正在吸引跨领域的兴趣，因为它提供了一个语言接口，具有跨许多领域的卓越会话能力和推理能力。然而，由于ChatGPT是用语言训练的，它目前还不能处理或生成来自视觉世界的图像。与此同时，Visual Foundation Models，如Visual Transformers或Stable Diffusion，虽然表现出了很强的视觉理解和生成能力，但它们只是针对一轮固定输入和输出的特定任务的专家。为此，我们构建了一个名为Visual ChatGPT的系统，结合了不同的Visual Foundation模型，使用户能够通过以下方式与ChatGPT进行交互：

不仅发送和接收语言，还发送和接收图像。
提供复杂的视觉问题或视觉编辑指令，需要多个AI模型以多步骤协作。
提供反馈并要求纠正结果。

考虑到多输入/输出的模型和需要视觉反馈的模型，我们设计了一系列提示符，将视觉模型信息注入ChatGPT。实验表明，Visual ChatGPT为在Visual Foundation Models的帮助下研究ChatGPT的视觉角色打开了大门。我们的系统在https: //github.com/microsoft/visual-chatgpt公开可用。

一个例子

在这里插入图片描述

用户上传了图片：黄色花朵
并输入了一个复杂的语言指令：“请根据该图片的预测深度生成一朵红色的花朵，然后将其一步步制作成卡通”。

在Prompt Manager的帮助下，Visual ChatGPT启动了相关Visual Foundation Models的执行链。
在本例中，

首先应用深度估计模型检测深度信息
然后利用深度-图像模型生成具有深度信息的红花图形
最后利用基于稳定扩散模型的风格转移VFM将该图像的风格转变为卡通

在上述过程中，Prompt Manager作为ChatGPT的调度器，提供可视化格式的类型并记录信息转换的过程。最后，当Visual ChatGPT从Prompt Manager获得“卡通”提示时，它将结束执行管道并显示最终结果。

Visual ChatGPT

设 $S = \{(Q_1, A_1)，(Q_2, A_2)，…，(Q_N, A_N)\}$ 是一个有 $N$ 个问答对的对话系统。为了从第 $i$ 轮对话中获得响应 $A_i$ ，涉及到一系列Visual Foundation Models(VFM)和来自这些模型的中间输出 $A_i^{(j)}$ ，其中 $j$ 表示第 $i$ 轮第 $j$ 个VFM ( $F$ )的输出。更具体地说，通过处理提示管理器 $M$ ，不断修改 $A_i^{(j)}$ 的格式，以满足每个 $F$ 的输入格式。最后，如果将 $A_i^{(j)}$ 表示为最终响应，则系统输出 $A_i^{(j)}$ ，不再执行VFM。下面给出了Visual ChatGPT的正式定义:
$A_i^{j+1}=ChatGPT(M(P),M(F),M(H_{<i}),M(Q_i),M(R_i^{<j}),M(F(A_i^{(j)})))$
在这里插入图片描述

系统准则： $P$
系统准则为Visual ChatGPT提供了基本的规则，例如，它应该对图像文件名敏感，应该使用VFM来处理图像，而不是根据聊天记录生成结果。
视觉基础模型（VFM）： $F$
Visual ChatGPT的一个核心是各种VFM的组合： $F = \{f_1, f_2，…， f_N\}$ ，其中每个基础模型 $f_i$ 包含一个明确输入输出的确定函数。
对话历史： $H_{<i}$
我们将第i轮对话的对话历史定义为以前的问题答案对的字符串连接，即 ${(Q_1, A_1)，(Q_2, A_2)，…，(Q_{i-1}, A_{i-1})\}$ 。此外，我们使用最大长度阈值截断对话历史，以满足ChatGPT模型的输入长度。
用户查询： $Q_i$
在可视化ChatGPT中，查询是一个通用术语，因为它可以包括语言查询和视觉查询。例如，上图显示了同时包含查询文本和相应图像的查询示例。
推理史： $R_i^{<j}$
为了解决一个复杂的问题，Visual ChatGPT可能需要多个VFM的协作。在第 $i$ 轮对话中， $R_i^{<j}$ 是来自 $j$ 调用的VFM的所有以前的推理历史。
中间结果答案： $A^{(j)}$
在处理复杂查询时，Visual ChatGPT将尝试通过逻辑调用不同的VFM逐步获得最终答案，从而生成多个中间答案。
提示管理器： $M$
设计了一个提示管理器，将所有视觉信号转换为语言，以便ChatGPT模型能够理解。

Prompt Manager

在这里插入图片描述

系统准则的Prompt Manager： $M (P)$

Visual ChatGPT是一个集成了不同的VFM来理解视觉信息并生成相应答案的系统。要做到这一点，需要定制一些系统原则，然后将其转换为ChatGPT可以理解的提示。这些提示有几个目的，包括：

Visual ChatGPT的作用是解决文本和视觉的联合任务
控制VFM的可访问性
对文件名敏感，避免滥用文件名
将查询分解成子问题进行链式推理
遵循严格的推理格式，使用精细的正则表达式匹配算法解析中间推理结果
忠实于视觉基础模型的输出，而不是伪造图像内容或文件名

在这里插入图片描述

基础模型的Prompt Manager： $M (F)$

Visual ChatGPT配备了多个VFM来处理各种VL任务。由于这些不同的VFM可能有一些相似之处，例如，图像中物体的替换可以看作是生成新的图像，图像到文本(I2T)任务和图像问答(VQA)任务都可以理解为根据提供的图像给出响应，因此区分它们是至关重要的。提示管理器具体定义了以下几个方面来帮助Visual ChatGPT准确理解和处理VL任务：