导语:没人怀疑,2024 年,AI 依然将是科技界的主角。上个月,OpenAI 推出了可以生成 60 秒高清视频的视频生成模型 Sora,掀起了对多模态模型的进一轮讨论。多模态大模型技术的最新进展如何?这一波新技术,对于行业和消费者的体验会带来哪些变化?面对一波波快速、热闹的突破和变化,技术人员该如何适应多模态 + 大模型时代?
InfoQ《极客有约》邀请了来自清华大学副研究员、曾入选人工智能全球最具影响力学者榜单和全球前 2% 顶尖科学家榜单的赵思成老师,与在机器学习、搜推广系统领域有十余年的前沿探索和工业实践经验、现任京东零售高级技术总监的彭长平老师,一起深入探讨了这些话题。
无论对大模型一知半解的入门者,还是期冀通过大模型技术实现突破的探索者,此次对话都极具价值。
1 视频生成崭露头角 多模态大模型进展如何?
InfoQ:继去年生成式大模型大火之后,多模态又成为近期热点,可否请两位老师介绍下 AIGC 和多模态技术到底能够带来哪些变化?目前在学术界和业界分别有哪些最新进展和重要挑战?
赵思成:AIGC 与多模态技术的结合在多个领域产生了深远的影响。以智慧零售领域为例,广告的呈现方式正在经历变革。传统的广告主要依赖人工设计和修改,成本较高且修改过程较为繁琐。而现在,通过 AIGC 和多模态技术,我们可以更高效地完成这些任务。通过语音与大模型进行交互,经过多次迭代,快速达到理想的效果。
然而,目前的多模态大模型也存在一些问题。首先,它们存在较为严重的幻觉问题,表现为无中生有、不连贯、常识缺失等。其次,在处理文本时,它们对中文的理解还不够深入。此外,在处理图像等模态时,多模态大模型更注重全局理解,对局部物体的理解仍有待加强。在一些垂直细分领域,如细粒度识别领域和情感计算领域,大模型做得还不够好。这些问题与多模态大模型的训练数据、训练方式、以及内部架构都有关系,值得研究者进一步探索。
彭长平:当大模型与搜推等具体业务场景结合时,要获得用户的信任,必须解决幻觉或胡编乱造的问题。我们目前尝试的思路包括基于检索的 RAG 和基于专业化数据场景化数据的 SFT。虽然有所改善,但可靠性和可信度仍需进一步提高,还有很大的提升空间。
关于挑战,首先,在多模态数据方面,需要不同类型的数据对齐。无论是业界还是学术界,大规模对齐数据的获取都是一个难题。其次,对于图像、视频和直播等多媒体物料,与人脑对比,计算机对于图片和视频的表征效率,远低于文本。第三,不同类型的任务,建模方式不太一样。还没有出现在图像领域多种任务上,都达到或者接近 SOTA 的统一模型。因此,多模态领域还有许多值得探索和攻克的方向。
InfoQ:聚焦来看,在多模态检索与识别中,如何有效地融合图像和音频等不同类型的信息以提高检索和识别的准确性一直是业界很难解决的问题,这其中最大的技术挑战是什么?
赵思成:我 21 年在 IEEE Signal Processing Magazine 写过一篇多模态的综述,主要是关于多模态情感识别的,总结了多模态的优势和挑战。
多模态情感识别的优势主要包括:数据互补性、模型鲁棒性和性能优越性,例如,当用户在京东上评价一个商品时,如果同时附上文字和图片,那么两者之间可以形成互补,使得情感表达更加准确。同时,即使某个模态的数据缺失,模型仍可以依靠其他模态进行情感判断。此外,与单模态情感视频相比,多模态情感视频在性能上可以获得约 10% 的提升。
然而,多模态情感识别也面临一些挑战,例如跨模态不一致性和不平衡性。为了融合不同模态的信息,我们提出了两种主要的融合方法:一类是与模型无关的融合,包括特征级融合(早期融合)、决策级融合(晚期融合)和混合融合,优点是简单没有额外的参数,缺点是性能差;另一类是基于模型的融合,把融合的事交给模型去学习,优点是性能好,缺点是有更多参数需要学习。由于不同模态的语义空间、特征空间差别比较大,如何让不同模态进行更