Multimodal Chain-of-Thought Reasonging in Language Models的阅读笔记_multimodal chain-of-thought reasoning in language -CSDN博客

本文链接：https://blog.csdn.net/weixin_50363058/article/details/136764532

本文探讨了如何在大语言模型中引入多模态Chain-of-Thought（CoT），提出了一种两阶段框架，通过融合语言和图像模态进行推理。实验结果显示，这种方法在ScienceQA上表现出色，优于GPT-3.5。然而，文章也指出了模型的不足与未来改进方向，如减少误导和常识错误。

摘要由CSDN通过智能技术生成

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

前言

思维链在大模型中的应用效果显著，想了解CoT的最新研究，最近看了一篇《Multimodal Chain-of-Thought Reasonging in Language Models》。
本篇文章是我学习阅读《Multimodal Chain-of-Thought Reasonging in Language Models》这篇文章时所记录的笔记，在此作为留存，以供后续回顾。文章中的内容仅供学习参考。

Zhang, Zhuosheng, et al. “Multimodal chain-of-thought reasoning in language models." arXiv preprint arXiv:2302.00923 (2023).
Paper: arxiv.org/abs/2302.00923
GitHub: https://github.com/amazon-scien…

一、Abstract

大语言模型利用思维链提示生成中间推理链作为推断答案的基本原理，在复杂推理方面表现出令人印象深刻的性能。现有研究主要集中在语言形态上，文中提出了多模态coT，将语言和图像模态分为两个阶段的框架，分离理由生成和答案推理。通过这种方式，答案推理可以利用多模态信息生成更好的理由。Mulitimodal-CoT，在十亿个参数下的性能比LLM（chat-3.5）高出16个百分点，甚至超过了ScienceQA基准的人类性能。

二、Introduction

2.1 引出多模态CoT的方法

一般有两种方法引出多模态推理

提示LLM：通过将不同模态的输入转换为一种模态的输入，例如将视频模态的字幕利用字幕模型提取字幕，然后将字幕与原始预言输入送到大模型中。但是在字幕提取的过程中存在信息损失的问题，在不同模态表示空间中缺乏相互协同问题。
微调LMs：通过融合多模态特征微调较小的语言模型。这种方法允许灵活调整模型架构来纳入多模态功能。

为了促进多模态之间的交互文中使用微调小模型。

关键的挑战是，1000亿参数以下的模型容易出现误导模型答案推理的幻觉理论，为了减轻幻觉这个问题文中提出Multimodal-CoT 将语言（文本）和视觉（图像）模态合并到一个两阶段的框架中，该框架将基本原理生成和答案推理分开。通过这种方式可以利用基于多模态的信息更好的生成理由。

2.2 Contributions

• 这项工作是第一个研究在不同模态下的CoT推理。
• 提出一个两阶段的框架，通过微调语言模型来融合视觉和语言表示来表现多模态CoT。该模型能够产生信息的理由来促进推断最终答案。
• 论文中的方法在ScienceQA基准测试中实现了最先进的性能，比GPT-3.5的准确率高出16%，甚至超过了人类的性能。

三、Framwork

3.1 两阶段多模态CoT

在这里插入图片描述
基本原理生成阶段：
• 首先提供X={X_language^1,X_vision } 〖 x〗_language^1 表示第一阶段的语言输入，X_vision 表示视觉输入
• 目的是学习一个基本原理生成模型R=F(X)R是基本原理
答案推理阶段：
• 将原理R附加到原始语言X1中 X_language^2=X_language1∘R o表示连接
• 将更新后的输入X^{′={X_language}2,X_vision}送到答案推理模型
推断最终的答案A=F(X^′)