工业大模型行业落地三个有趣观点:兼看视频理解多模态进展综述

文章转自公众号老刘说NLP


先看一个有趣的话题。特定大模型的输出是有一个「信息量」的上限的,即使输出的token可以很长,但是其包含的信息量并没有本质差异,只不过是车轱辘话来回说罢了,或者就是一些无关痛痒的话来填充,信息密度实际上是下降的。

这是一个很有趣的额问题,我们可以从PPL、词汇丰富度、主题数来看,也有社区朋友说,可以适用信息熵来做,但这个其实是用来衡量不确定性的,所以大家如何看这个事情呢?

今天,我们来看看几个问题。一个是工业大模型行业落地的三个观点,讲的还不错。

另一个关于视频理解多模态进展综述,对于理解多模态视频这块的技术、实现范式和数据有帮助。

一、关于工业大模型行业落地的三个观点

最近看到一个很不错的工业大模型行业报告,2024年中国工业大模型行业发展研究报告:https://www.idigital.com.cn/report/4385?type=0,其中有个三个观点,总结的比较好,供大家一起参考。

观点1:大模型落地工业应用的几种思路

纯粹prompt提示词法、RAG(检索增强)、主动提问与函数调用、微调四种思路,其中RAG和微调为目前工业领域较为常见的应用思路

491a418caa7cd95ec7601053f65c618d.jpeg

观点2:大模型落地工业应用时常见的几种架构

关于大模型落地工业应用时候,常见的可以分为以下几种架构:

路由分发架构模式、大模型代理架构模式、基于缓存的微调架构模式、面向目标的Agent架构模式、智能体组合架构模式架构,每个具体步骤和优缺点如下:

dc623f64c617e779601c3d017253b3ad.jpeg

观点3:关于大模型和小模型的差别

在进行工业应用时,大小模型各有所长,其能力都不可忽视,当前也不存在谁替代谁的情况。

大模型落地工业应用时,主要依托于强大的生成能力和针对复杂信息的捕捉与构建能力,因此在知识问答、文本/图片生成等以创造见长的场景应用比较多。

c40ef71ccc42646d4153f32a913cb2bd.jpeg

而小模型则凭借高性价比、预测结果相对准确等优势,在工业质检、设备维护等场景高度成熟。

二、关于视频理解多模态进展综述

最近的工作《From Seconds to Hours: Reviewing MultiModal Large Language Models on Comprehensive Long Video Understanding》(https://arxiv.org/abs/2409.18938),这个工作综述长视频理解任务,重点分析其独特挑战并总结模型与训练技术进展,我们可以看看。

可以看看几个核心的点:

1、视频理解大模型的演化

dcb3852a164a50e9e45c157aa1452a92.jpeg

2、图像-、短视频-和长视频-多模态大型语言模型(MM-LLMs)之间的比较

8b25865a74fb1bfb9c5f677fb8c7ae66.jpeg

3、图像、短视频和长视频的视觉理解流程

ceaefc6b65f1f66a2ab67632183d66ce.jpeg

4、图像、短视频和长视频的视觉理解的多模态模型

8d3fde2a8a82afcd56c39c7bdfe8ce74.jpeg

5、主流训练范式和代表模型对比

c608b31331a6bca572d4ef5348bed865.jpeg

"PT" 和 "IT" 分别代表模型训练过程中的预训练和指令调整两个阶段。字母 "Y"(是)和 "N"(否)表示在这些阶段是否使用了图像、短视频和长视频语言数据集。"E2E" 代表端到端的训练流程。

6、Long video长视频的预训练阶段和微调阶段的数据样本

fdaf86aac6452330c0fc0f3a7250fc8b.jpeg

参考文献

1、https://www.idigital.com.cn/report/4385?type=0

2、https://arxiv.org/abs/2409.18938


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值