多模态大模型综述《A Survey on Multimodal Large Language Models》

最新推荐文章于 2025-03-06 09:18:03 发布

yang_daxia

最新推荐文章于 2025-03-06 09:18:03 发布

阅读量1.6k

点赞数 3

文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yang_daxia/article/details/139687408

版权

在这里插入图片描述

架构图

在这里插入图片描述
在单模态的基础上，加了新的模态，encoder后，通过mlp或者其他方式与text对齐，再输入大模型。如果需要生成新的膜套，可以再通过生成器。（此处与SD不太一样），chatGPT不会生成图片，可以对图片进行理解。

训练方式

一般多个阶段。预训练、指令微调、对齐微调（RLHF）。

预训练是通用能力。使得图像对齐到llm表征空间，数据来源于互联网上的图像对。
指令微调是专业能力，提升在下游任务上的性能。数据来源于VQA、OCR、目标检测等数据
对齐微调是纠错能力，类似LLM通过强化学习、人工打分排序，使得输出符合人类要求

其他技术方向

多模态幻觉：可以增加图像分辨率、提高数据质量，图像token表征、图像文本的对齐方式等
多模态上下文学习：Flamingo通过在图文交错的数据上训练来提升模型关注上下文的能力。
多模态思维链：将复杂的问题分解为较简单的子问题，然后分别解决并汇总。
LLM 辅助的视觉推理：利用 LLM 强大的内嵌知识与能力，并借助其他工具，设计各种视觉推理系统，解决各种现实问题。

https://www.qbitai.com/2024/04/134649.html

博客等级

码龄7年

214
原创

483
点赞

1052
收藏

423
粉丝

关注

私信

热门文章

分类专栏

最新评论

论文阅读VACE: All-in-One Video Creation and Editing
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
git 常用功能，误删，版本回退等
CSDN-Ada助手: 如何在 Git 中处理子模块？
videoLDM:Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
LDM——High-Resolution Image Synthesis with Latent Diffusion Models论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

yang_daxia 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。