Multimodal Chain-of-Thought Reasonging in Language Models的阅读笔记
大语言模型利用思维链提示生成中间推理链作为推断答案的基本原理,在复杂推理方面表现出令人印象深刻的性能。现有研究主要集中在语言形态上,文中提出了多模态coT,将语言和图像模态分为两个阶段的框架,分离理由生成和答案推理。通过这种方式,答案推理可以利用多模态信息生成更好的理由。Mulitimodal-CoT,在十亿个参数下的性能比LLM(chat-3.5)高出16个百分点,甚至超过了ScienceQA基准的人类性能。
原创
2024-03-16 16:52:14 ·
1158 阅读 ·
1 评论