51c多模态~合集1_depictqa-CSDN博客

本文链接：https://blog.csdn.net/weixin_49587977/article/details/143377025

我自己的原文哦~ https://blog.51cto.com/whaosoft/12328813

#多模态视觉-语言大模型的架构演进

本文回顾了多模态LLM (视觉-语言模型) 近一年来的模型架构演进，对其中有代表性的工作进行了精炼总结，截止2024.04，持续更新ing... 欢迎大家多多点赞、收藏、讨论

首先，推荐一篇启发我很多的综述和对应的项目地址（本文的封面图也来自该综述）

A Survey on Multimodal Large Language Models
arxiv.org/abs/2306.13549

Awesome-Multimodal-Large-Language-Models
github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

这篇综述一张图总结了多模态LLM的典型架构：

BLIP

【2022.01发布】https://arxiv.org/abs/2201.12086

统一视觉-语言理解和生成，使用captioner+filter高效利用互联网有噪数据

模型架构：

Image/text encoder: ITC loss对齐视觉和语言表征，基于ALBEF提出的momentum distillation
Image-grounded text encoder: ITM loss建模视觉-语言交互，区分positive/negative图文对，使用hard negative mining挖掘更高相似度的负例优化模型
Image-grounded text decoder: LM loss实现基于图像的文本解码，将双向self-attention替换为causal self-attention

BLIP的bootstrapping训练过程：

BLIP-2

【2023.01发布】https://arxiv.org/abs/2301.12597

使用相对轻量的Q-Former连接视觉-语言模态，通过两阶段训练：第1阶段基于冻住的视觉编码器，第2阶段基于冻住的LLM

第1阶段：同样优化ITC/ITM/LM loss，使用不同的self-attention mask，query和text端共享self-attention参数，使得可学习的query embedding提取与text语义最相关的视觉表征；使用BERT-base初始化，32个768维的query作为信息瓶颈

ITC：计算每个query与text的相似度，取最大的；使用batch内negatives，不再使用momentum queue
ITM：对每个query与text的分类logits取平均，使用hard negatives mining挖掘难负例
LM：text token和frozen image encoder不能直接交互，要求query能提取有益的视觉特征

第2阶段：可基于decoder-only/encoder-decoder LLM进行适配，FC层对齐维度

LLaVA

【2023.04发布】https://arxiv.org/abs/2304.08485

使用仅文本模态的GPT-4生成视觉-语言指令遵循数据，用于微调多模态LLM

使用图片的dense captions和bounding boxes作为prompt，可以生成对话、细节描述、复杂推理等指令

CLIP ViT-L/14 + Vicuna，使用简单的线性层进行映射

更复杂的：Flamingo中gated cross-attention，BLIP-2中的Q-former

LLaVA模型的两阶段训练

stage1. 预训练特征对齐：冻住vision encoder和LLM，只训练projection，学习一个兼容的visual tokenizer
stage2. 端到端微调：冻住vision encoder，在单轮/多轮对话数据上微调projection和LLM

MiniGPT-4

【2023.04发布】https://arxiv.org/abs/2304.10592

stage1. 预训练：使用image-text pair微调linear projection layer，vision encoder和LLM保持冻住

stage2. 指令微调：指令格式为：###Human:###Assistant:

InstructBLIP

【2023.05发布】https://arxiv.org/abs/2305.06500

stage1. 预训练：BLIP-2（使用image-text pairs进行两阶段训练）

stage2. 指令微调：只微调instruction-aware Q-former，冻住vision encoder和LLM

支持FlanT5(encoder-decoder)和Vicuna(decoder-only)

Qwen-VL

【2023.08发布】https://arxiv.org/abs/2308.12966

支持中英双语、多图像输入

Qwen-7B + OpenCLIP ViT-bigG，输入图像直接resize到视觉编码器输入

位置感知的VL adapter：使用基于Q-former的单层的cross-attention，将图像特征维度压缩到256，在query-key pairs中引入2D绝对位置编码增强位置信息

图像输入：256-dim图像特征

bounding box输入输出：(X_topleft, Y_topleft), (X_bottomright, Y_bottomright),…标记box所指内容

三阶段训练：

stage1. 预训练：基于大规模、弱标注、网络爬取的图像-文本对，输入分辨率224x224，冻住LLM，训练ViT和Q-former，主要目的是模态对齐

stage2. 多任务预训练：基于7种下游视觉-语言理解任务的高质量、细粒度标注数据训练，输入分辨率448x448，图像/文本数据交错，训练整个模型

stage3. 指令微调：提升指令遵循和多轮对话能力，冻住ViT，训练LLM和Q-former

Qwen-VL-Plus和Qwen-VL-Max提升了视觉推理能力、图像细节的识别/提取/分析能力（尤其是文本导向的任务）、支持高分辨率和极端纵横比的输入图像；在部分中文场景超过了GPT-4V和Gemini

InternLM-XComposer

【2023.09发布】https://arxiv.org/abs/2309.15112

交错图文构成：自动在输出文本中插入合适的图片

EVA-CLIP ViT + InternLM-7B + Q-former (将图像特征压缩到64个embedding）

两阶段训练：

stage1. 预训练：冻住ViT，训练LLM和Q-former

stage2. 监督微调：包括多任务训练和指令微调，冻住ViT和LLM，训练Q-former，对LLM进行LoRA微调，增强指令遵循和图文混排能力

Fuyu-8B

【2023.10发布】https://huggingface.co/adept/fuyu-8b

模型架构和训练过程简单，易于scaling；支持任意图像分辨率；推理速度快

decoder-only的transformer，没有专门的图像编码器；image patch直接线性映射到transformer第一层

LLaVA-1.5

【2023.10发布】https://arxiv.org/abs/2310.03744

仍使用MLP作为模态连接，突出了训练的数据高效性

CogVLM

【2023.11发布】https://arxiv.org/abs/2311.03079

深度视觉-语言模态融合，而不影响LLM原有的语言能力：冻住LLM和ViT，在attention和FFN层训练一份视觉专家模块

CogAgent

【2023.12发布】https://arxiv.org/abs/2312.08914

针对GUI场景的多模态理解和导引，使用高分辨率-低分辨率双编码器，支持1120x1120的屏幕输入

高分辨率分支使用更轻量的ViT，基于cross-attention将高分辨率图像特征与LLM每层进行融合

VILA

【2023.12发布】https://arxiv.org/abs/2312.07533

探索了视觉-语言模型训练的设计选择：

预训练阶段冻住LLM虽然能取得较好的zero-shot性能，但上下文学习能力依赖对LLM的微调
图文交错的预训练数据是有益的，只用图文数据对效果不够好
将纯文本的指令微调数据加入SFT阶段有助于缓解纯文本任务的能力退化，同时也能够增强视觉-语言任务的准确性

LLaVA-Next

【2024.01发布】https://llava-vl.github.io/blog/2024-01-30-llava-next/

相对于LLaVA-1.5，保持了极简的设计和数据高效性：

提高了输入图像的分辨率 (4x)，支持3种纵横比：672x672, 336x1344, 1344x336
更好的视觉推理和OCR能力：更好的指令微调数据配比
更好的多场景视觉对话：更好的世界知识和逻辑推理
更高效的部署和推理：SGLang

动态高分辨率：视觉编码器支持336x336的图像输入，对于672x672的图像，按照{2,2}的grid split成4个图像patch过encoder，downsample到336x336也过encoder，特征拼接作为visual tokens输入到LLM中

收集高质量用户数据，包括真实场景中反映用户更广泛意图的指令数据，利用GPT-4V进行数据构造

多模态文档/图表数据，增强文档OCR和图表理解能力

InternLM-XComposer2

【2024.01发布】https://arxiv.org/abs/2401.16420

提出了新的模态对齐方法partial LoRA：只在image token上添加LoRA参数，保证预训练语言知识的完整性，这样一个更轻量的视觉编码器同样有效

OpenAI CLIP ViT-L/14 + InternLM2-7B + partial LoRA (rank=256)

两阶段训练：

stage1. 预训练：冻住LLM，微调ViT和partial LoRA模块，包括通用语义对齐（理解图像基本内容）、世界知识对齐（进行复杂的知识推理）、视觉能力增强（OCR、物体定位、图表理解）

stage2. 监督微调：微调整个模型，包括多任务训练、自由形式图文排布

InternLM-XComposer2-4KHD

2024.04发布了4KHD版本：https://arxiv.org/abs/2404.06512

支持动态分辨率（336px → 4K (3840x1600))：改进了patch division范式，保持训练图像原有的纵横比，自动变化patch数目，基于336x336的ViT配置layout

动态图像划分：将输入图像resize and pad到336的整数倍宽高

结合图像的global和local视角：global视角由输入直接resize到336x336，使用sep token分隔两种视角的token

图像2D结构的换行符：可学习的\n token分隔图像token行

Mini-Gemini

【2024.03发布】https://arxiv.org/abs/2403.18814

使用双视觉编码器提取低分辨率embedding作为query，高分辨率特征区域作为key/value，两者之间做cross-attention，输出挖掘的tokens作为prompt前缀，输入到LLM做推理，外接图像解码器生成图像(SDXL)

#DepictQA

图像质量感知多模态语言模型

基于多模态语言模型 (MLLM) 的图像质量感知方法，借助MLLM，对图像质量进行类似于人类的、基于语言的描述。

项目主页：https://depictqa.github.io
DepictQA-v1 (ECCV2024) ：https://arxiv.org/abs/2312.08962
DepictQA-v2 (arXiv, preprint) ：https://arxiv.org/abs/2405.18842
代码 (包括训练推理与数据集构造代码)：https://github.com/XPixelGroup/DepictQA
数据集：https://huggingface.co/datasets/zhiyuanyou/DataDepictQA

为什么会做这个项目？

图像质量感知是一个宏大而复杂的课题。比如：

图像是细节越多越好吗？

并不是。很多人都会喜欢湛蓝纯净的天空。因此，在飘了一些淡淡的云彩的天空中加入blur，使得天空的颜色更加均匀，人看起来反而更好看。

失真一定会带来低质量吗？

并不是。如下图所示，右图是在左图的基础上添加噪声得到的。但是在这种情况下，噪声可以使手部皮肤看起来更加真实，而左图则显得过度平坦化。在这种情况下，噪声使图像更加真实。

图片来源：https://medium.com/photo-dojo/dont-fear-the-grain-263a37a64b87

很容易发现，图像质量感知与图像的局部内容是强相关的，甚至是与个人的喜好强相关的。

那么，如何刻画如此复杂的质量感知呢？

现有的图像质量评价 (IQA) 方法使用score来描述图像质量，可以直接用于对比不同模型的性能，被广泛地作为metric或者loss使用，促进了图像生成、修复等领域的发展。但是，score这种描述形式是图像质量感知的一个综合的方面，其表达能力的上限是不足的，无法刻画复杂的局部性和内容相关性。

在大语言模型 (LLM) 和多模态语言模型 (MLLM) 出现后，我们希望语言成为描述图像质量感知这个复杂问题的工具，这也是这一系列工作的初衷。

TL;DR

DepictQA是基于多模态语言模型 (MLLM) 的图像质量感知方法。我们希望借助MLLM，对图像质量进行类似于人类的、基于语言的描述。
DepictQA-v1。为了验证MLLM感知图像质量的可行性，我们 (1) 构造了full-reference下的任务框架，(2) 构建了一个包括大量的、简短的、模版化的构造数据 + 少部分的、详细的、人工标注的数据组成的数据集，(3) 训练了一个MLLM，验证了MLLM感知图像质量的可行性。
DepictQA-v2。在可行性验证之后，我们希望拓展模型的适用范围，进行了 (1) 任务框架的拓展 (任务类型从3种到8种)，(2) 数据集的scaling up (detail数据从5K到56K)，实现了 (3) 在自然图像上具有一定的泛化性。

图1：DepictQA-v1作者与机构。

图2：DepictQA-v2作者与机构。

Motivation: Score-based质量感知方法的局限性

现有的图像质量感知方法主要是score-based方法。这些方法输出一个score来描述图像质量，可以用于对比不同模型的性能，被广泛地作为metric或者loss使用，促进了图像生成、修复等领域的发展。

虽然取得了如此巨大的成功，我们认为score的描述形式限制了更深层次的质量感知。

首先，图像质量包括了很多的因素，这些因素无法通过一个简单的score有效表达，例如图3中的噪声、色彩失真和伪影等。
其次，score无法模拟人类的感知过程。例如，在图3(b)中，人类一般首先识别图像的失真（即图像A中的噪声、图像B中的色彩失真和伪影），然后权衡这些失真对内容表达的影响（图像B中的色彩失真和伪影比图像A中的噪声更严重），最后得出结论 (图像A比图像B更好) 。但是，简单地对比score来判断好坏无法反应出人类复杂的感知过程。

最近，以ChatGPT为代表的大语言模型 (LLM) 将深度学习带入了大模型时代，随之出现的多模态大语言模型 (MLLM) 可以使用语言对图像的内容进行详细的描述。因此，我们希望探究基于MLLM、使用语言对于图像质量进行描述的方法。

图3：DepictQA-v1与score-based方法的比较。Score-based方法仅输出score，缺乏推理过程。DepictQA-v1识别图像的失真，权衡不同失真对纹理的影响，得出与人类判断更一致的结果。

图4：DepictQA-v2的定性结果。DepictQA-v2能够准确识别失真类型，分析失真类型对于图像内容的影响，得出质量评估或者质量对比的结论。

DepictQA-v1

任务定义

我们建立了一个包括三个任务的任务框架。

质量描述。模型应该能够感知图像失真。如图5(a)，给出参考图像和一张失真图像，模型需要描述失真图像中的失真和纹理损伤，并判断失真图像的整体质量。
质量对比。模型应该能直接对比两张图像的好坏。如图5(b)，给出参考图像和两张不同的失真图像，模型需要确定哪一张失真图像的质量更好。
对比归因。模型应该能对两张图像的好坏进行判断并归因。如图5(c)，模型需要描述两张失真图像的失真和纹理损伤，并推理权衡利弊，对比图像质量的好坏。该任务是质量描述和质量对比的综合。

图5：DepictQA-v1任务定义与数据收集。

数据收集

人工标注选项 + GPT-4语言化

在DepictQA-v1收集数据时，GPT-4V等强多模态模型还没有出现。我们设计了人工标注选项 + GPT-4语言化的数据策略。如图5所示，我们设计了由选择题构成的问卷，标注员标注问卷后，GPT-4将问卷的标注结果组合成语言，由此构造图像文本对。

大量的、简短的、模板化回答 + 少部分的、详细的回答

人工标注数据是详细的，但是费时费力获取难度大。因此，我们将已有的包含score的数据集转化为文本，构造大量的、简短的、模版化的数据。比如，图像A的score比图像B高，可以转化为"Image A maintains a better quality than Image B"。将模版化数据 + 详细数据混合训练，对于对比精度和归因准确性都有一定提升。

模型训练

如图6所示，我们采用了LLaVA框架，包括image encoder、image projector、LLM三部分。

区分多张图像

LLaVA的输入是单张图像，而我们涉及到多张图像。如何让模型区别多张图像是十分重要的。我们测试了4种区分多种图像的方法，并根据结果选择了textual hint + tag hint的方法。

图6：DepictQA-v1模型架构。

加入high-level数据作为正则化

质量相关的描述语言是单一的，包括的独立词汇量偏少。仅仅用这些数据训练，模型存在过拟合、说套话、重复说话的问题。因此，我们在训练过程中加入了LAMM引入的COCO详细描述数据作为正则化。

实验结果

在双图对比、多图对比 (双图对比的拓展) 上，超越了经典的score-based方法。

在质量描述和对比归因上，通用MLLMs不具有质量感知能力，而DepictQA-v1体现出了一定的质量感知能力。

DepictQA-v2任务定义

DepictQA-v1主要关注了full-reference设置下的3种任务。在DepictQA-v2中，我们对任务定义进行了拓展，从3种任务扩展到8种任务，提出了一个多任务的框架。如图7所示，拓展后的任务框架包括了单图评估和双图对比两大类任务，每类任务都包括了brief和detail两个子任务，支持full-reference和non-reference设置。

图7：DepictQA-v2任务定义。

数据收集

更全面的自然图像。我们选择了KADIS-700K作为高质量图像的来源，一共包括了140K的高质量图像。
更全面的失真类型。我们构建了一个全面的失真库，包括了35种失真类型，每种类型包括了5个等级。
更大尺度的数据量。我们将detail数据从DepictQA-v1的5K扩增到了56K，相应地，brief的数据也扩增到了440K。
更合理的数据生成。在构造DepictQA-v2的数据集时，GPT-4V等强多模态模型已经出现。Co-Instruct直接采用了GPT-4V构造数据。虽然GPT-4V具有强大的内容识别、逻辑推理能力，但是其失真识别、质量对比能力都是不足的。因此，如图8所示，我们提出ground-truth-informed生成方法，将失真识别和质量对比的结果直接加入GPT-4V的prompt中，提升了生成数据的质量。

图8：DepictQA-v2数据收集。

模型训练

我们采用了DepictQA-v1的模型架构。

图像分辨率的适应。由于图像的分辨率以及比例也是质量的重要部分，我们提出对于clip image encoder的位置编码进行差值，而保留图像的原始分辨率和比例。
置信度的计算。MLLM的response缺乏一个良好的置信度。我们提取了response中的key tokens，计算了key tokens的预测概率作为置信度。

实验结果

在失真识别上，超越了通用MLLMs、以及已有的MLLM-based质量感知模型。

在直接对比上，超越了score-based方法、通用MLLMs、以及已有的MLLM-based质量感知模型。

在评估归因和对比归因上，超越了通用MLLMs、以及已有的MLLM-based质量感知模型。

在web下载的真实图像上也体现出较好的泛化性。

图9：DepictQA-v2在真实图像上的质量感知结果。

模型预测的置信度与模型性能的一致程度非常高。

图10：置信度与模型性能的一致程度非常高。

不足与未来的工作

在这两篇工作中，我们展示了使用MLLMs描述图像质量的可能性。但是，MLLM-based图像质量感知模型的落地应用仍有很长的路要走。

数据的数量和覆盖范围不足，限制了模型的泛化性能。尽管DepictQA-v2已经进行了数据集的scaling up，但是对于非自然图像，其泛化性能依然不足。
MLLM-based方法的应用不像score-based方法那么自然。Score可以被直接对比选择更优的模型，但语言不能被直接对比。Score也可以被用作loss优化模型，但语言目前还不具有这种特性。因此，质量感知的语言能否被输入生成模型或者修复模型用于质量提升，还需要进一步的探索。

#InternVL2

最好的开源多模态基础模型

最近忙完了WAIC，有空写个帖子，宣传下InternVL2，最好的开源多模态基础模型，以及介绍下背后的几篇论文：

第一篇：

OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

世界上最大的图文交错数据集，支持我们模型的训练

第二篇：

Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning

首创多模态信息压缩学习，首次支持互联网尺度图文交错数据端到端预训练算法

第三篇：

VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks

https://arxiv.org/abs/2406.08394

VisionLLM v2通用任务解码器（强化模型专项能力）：首创向量链接技术，连接多模态大模型和各领域专用模型，通专结合，拓展多模态大模型的基础能力

#Multimodal-Unlearnable-Examples

多模态不可学习样本：保护数据免受多模态对比学习的威胁

在本文中，作者探索了多模态数据保护，特别关注图像-文本对，并生成了多模态不可学习样本来防止被多模态对比学习利用。

导读

多模态对比学习（如CLIP）通过从互联网上抓取的数百万个图像-字幕对中学习，在零样本分类方面取得了显著进展。然而，这种依赖带来了隐私风险，因为黑客可能会未经授权地利用图像-文本数据进行模型训练，其中可能包括个人和隐私敏感信息。最近的工作提出通过向训练图像添加难以察觉的扰动来生成不可学习样本（Unlearnable Examples），可以建立带有保护的捷径。然而，这些方法是为单模态分类任务设计的，在多模态对比学习中仍未得到充分探索。本文首通过评估现有方法在图像-标题对上的性能来探索这一背景，由于在该场景中缺乏标签，之前的无法有效地推广到多模态数据，并且在建立捷径方面的效果有限。在本文中提出了多步误差最小化（MEM），这是一种用于生成多模态不可学习样本的新颖优化过程。它扩展了误差最小化（EM）框架，以优化图像噪声和额外的文本触发器，从而扩大了优化空间，并有效地误导模型学习噪声特征和文本触发器之间的捷径。具体来说，采用投影梯度下降来解决噪声最小化问题，并使用HotFlip方法来近似梯度和替换单词，以找到最佳的文本触发器。大量实验证明了方法的有效性，保护后的检索结果几乎是随机猜测的一半，并且它在不同模型之间具有高度的可转移性。本篇工作的论文和代码均已开源。

【论文链接】https://arxiv.org/abs/2407.16307

【代码链接】https://github.com/thinwayliu/Multimodal-Unlearnable-Examples

研究背景

近年来，随着多模态学习的兴起，研究者们对结合文本、图像和音频等多种数据类型的模型产生了浓厚的兴趣。其中，多模态对比学习成为了这一领域的重要方法，如CLIP和ALIGN等模型利用对比损失训练，以增强图像和文本的相关性，进而减少人工标注的需求，并展示了在图像分类、生成等任务中的潜力。然而，这些模型的训练依赖于大量的多模态数据，这些数据常常来自公开的数据集，如CC12M、YFCC100M和LAION5B，但这些数据集可能仍然不足，且可能包含大量敏感的个人信息，引发了对隐私泄露的担忧。

我们考虑了一个专注于生成多模态不可学习样本以应对与多模态对比学习相关的隐私风险的场景。在这种场景下，我们专注于图像-文本对作为代表性的多模态数据集。假设用户经常在社交媒体平台（如Facebook）上分享带有文本的个人照片，包括一些私人身份信息，如面孔、姓名、电话号码和地址。目前，黑客试图从互联网上收集大量此类图像-文本对，并利用多模态对比学习技术训练或微调大模型，如图1的左半部分所示。这些模型无意中捕获了用户的私人信息和面部特征，导致潜在的隐私泄露。保护者旨在通过对多模态数据进行不可学习的方法来防止这些敏感数据被未经授权利用。这些方法使在这种多模态不可学习样本上训练的模型无法访问用户的隐私特征，同时不妨碍用户在发布图像和文本后的社交互动，如图1的右半部分所示。

图 1：Facebook上的帖子无意中会泄露了个人信息（如图左），但利用多模态不可学习样本可以保护数据可以防止未经授权的模型访问私人特征（如图右）。

动机

最近的研究致力于通过不可学习样本（Unlearnable Examples）来防止图像分类中的数据未经授权使用。这些方法通过对数据施加细微扰动来阻碍模型学习图像特征，也被称为可用性攻击（availability attacks）或无差别的中毒攻击（indiscriminate poisoning attacks）。它主要分为无代理模型攻击和基于代理模型的攻击，其中无代理模型攻击通过在像素级别生成噪声，而基于代理模型的攻击则通过代理模型生成特征级别的噪声。然而，所有用于分类的无代理模型方法在多模态场景下都无法生成图像噪声，因为这些方法旨在为与某个特定类别相关的图像找到一系列特定的噪声模式，而图像-文本对数据中没有标签。因此，只有基于代理模型的方法可以应用，我们扩展了两种典型的方法来生成不可学习的多模态示例（EM和UAP）。

The Error-minimizing Noise（EM）方法：

Untargeted Adversarial Perturbation.(UAP)方法：

尽管EM和UAP可以应用于图像-字幕对，但它们未能实现高效的保护，尤其是UAP。我们探讨了这些方法从图像分类到多模态对比学习有效性下降的原因。在图像分类中，EM和UAP优化具有相同标签的图像，使其在特征空间中收敛，导致模型容易捕获这些附加噪声并学习与标签的相关性，如图2（a）所示。但在多模态对比学习中，为了有效地应用EM和UAP方法，优化的图像噪声的方向必须与文本的特征相关，导致图像特征变得要么接近要么远离这些特征。然而，不同对的文本特征可能在图像–文本数据集中广泛分散。如图2（b）和（c）所示，与分类不同，模型更难捕捉字幕和EM和UAP生成的噪声之间的相关性。在图2（c）中，UAP的学习决策空间更加复杂，因此其保护效果不佳。

图 2：不同方法在传统分类和多模态对比学习中的比较。𝐼表示图像，𝑇是配对的标题。蓝色区域是在不可学习样本上训练的模型的预期决策边界。

方法

图 3：多步误差最小化方法（MEM）的框架

由于图像-文本对的分散，基于代理模型的方法仍然无法实现有效的保护。一个直观的增强策略是同时优化图像和文本，以获得更大的优化空间，促进它们在特征空间中不同对的收敛。因此，图像和文本集的优化特征表示呈现出相似的分布，便于模型学习它们的捷径，如图2（d）所示。为此，我们以EM方法为基本框架，并提出在字幕前添加额外的短文本触发器来最小化对比损失，遵循对文本任务的对抗攻击的设置。我们的方法可以被概念化为一个三层迭代优化问题，类似于EM的多步过程。具体来说，我们依次优化噪声δ和文本触发器t，以减少优化图像I + δ和优化文本T ⊕ t之间的对比损失，其中⊕表示可以在不同位置插入干净文本T的触发器。为了简单起见，我们在本文中选择在文本的开头添加文本触发器。因此，我们的多步误差最小化（MEM）方法可以表述为：

通过参考EM中的方法依次迭代优化上述问题。使用投影梯度下降（PGD）来解决式中的噪声最小化问题。值得注意的是，为了减轻噪声对干净字幕的过拟合，我们通过在批处理中打乱干净字幕并添加正确匹配的文本触发器来增强它们。因此，当面对语义错误的字幕时，这种生成的噪声可以更多地关注文本触发器而不是部分字幕。因此，我们可以根据以下迭代公式获得最优的δ：

对于文本触发器最小化问题，首先通过在所有输入的前面重复单词“the”或“a”来初始化触发序列。此外，基于HotFlip优化文本触发器，通过梯度近似替换标记的效果。通过更新每个触发标记的嵌入，以最小化当前标记嵌入周围的CLIP损失的一阶泰勒近似：

最后，我们可以在候选标记的集合中使用束搜索来搜索每个最优文本触发器。我们考虑来自上式的前k个候选者，并在触发器的每个位置从前到后搜索，并使用当前批处理上的损失对每个束进行评分。我们遵循Wallace等人的方法，并使用小的束大小进行高效计算。在图3中，我们可以看到使用我们的MEM生成多模态不可学习样本的框架。

实验效果

有效保护性

表 1：在不同数据集上几种方法生成的不可学习样本的有效性比较。

表1展示了它们在不同数据集上的检索结果。显然，UAP几乎无法为多模态数据提供任何保护，而EM则表现出一定程度的保护。然而，我们的MEM始终为多模态数据提供强大的保护，将检索性能降低到几乎是随机猜测的一半。特别是MEM - 5，由于其文本触发器更长，与MEM - 3相比，在降低黑客模型性能方面取得了更大的效果。图4展示了由不同方法生成的不可学习样本训练的训练损失下降曲线和在干净测试集上的检索Medr。从（a）中可以观察到，尽管EM使损失比正常训练下降得更快，但我们的方法MEM-3和MEM-5在第一个epoch时损失更小，这表明模型可以快速学习到捷径。从（b）中我们发现，所有模型的Medr都比随机猜测时降低，但在不可学习样本上训练的模型停止学习得最快，达到了最差的检索结果，并且随着epoch的增加不会进一步学习得更好。以上观察结果与表1中的结果一致。

图 4：训练损失和测试指标Medr的曲线变化记

跨模型迁移性

表 2：在不同模型架构上，基于ResNet50模型的MEM-3方法生成的不可学习样本的可转移性。

我们假设数据保护是一个完全黑盒的设置，其中保护者不知道黑客模型的架构。因此，我们评估了在ResNet50代理模型上生成的MEM在不同黑客模型上的性能，包括ResNet101和ViT。结果如表2所示。我们发现这些样本可以成功地在不同模型之间转移，并能降低CLIP模型的性能

可视化分析

图 5：注意力图可视化：比较四种模型在干净数据和不同方法的不可学习样本上的情况。

图5展示了在干净数据和不同方法生成的不可学习样本上训练的模型的注意力热图。对于图像，我们使用Grad-CAM来可视化模型的注意力，而对于文本，我们使用Integrated Gradients来可视化注意力。颜色越浅表示模型的注意力越高。值得注意的是，对于图5（1），（2）和（3）中的模型都关注中心区域，这与字幕相关。然而，图5（4）中由MEM - 3生成的样本训练的模型由于只学习了噪声特征，无法准确识别干净图像。同样在文本中，前三者中的模型都关注关键词“glass”，而后者中的模型将注意力放在前三个单词上，这可能是因为MEM-3总是优化噪声和前三个文本触发器来创建捷径。这些可视化结果表明，EM和UAP在保护多模态数据方面效果不佳，而MEM具有明显的有效性。

图 6：干净样本和MEM-3优化的不可学习样本在干净模型和中毒模型下的t-SNE可视化。

我们在图6中可视化了正常模型下干净样本的特征分布以及MEM3在中毒模型上优化的不可学习样本的特征分布。我们用三角形表示图像特征，用圆圈表示文本特征，相同颜色表示数据集中五个相同但经过变换的图像及其对应的不同描述。从（a）中我们可以观察到，在干净模型下，相同的图像和文本在内部聚集在一起，并且相应的图像-文本对彼此接近。然而，在（b）中，相同的图像和文本出现了分歧，只有成对的图像和文本彼此接近。这表明我们的方法有效地促进了模型学习噪声和文本触发器之间的捷径。

案例探讨： 人脸隐私保护

我们进行了一个案例研究，将我们的MEM噪声应用于一个现实世界的场景：保护社交媒体平台上的个人人脸图像和相关信息，如姓名。我们使用PubFig数据库进行了实验，这是一个大型的现实世界人脸数据集，包含从互联网上收集的200个个体的58,797张图像。对于检索评估，我们随机选择每个名人的一张照片作为测试集，并使用所有剩余的图像进行训练。为了进行真实的微调，我们更改了他们的名字，并提供了一组与该名字相关的文本模板用于字幕生成。随后，我们使用MEM生成不可学习的样本，并使用不同的黑客模型进行评估。结果如表3所示。MEM可以防止这些微调模型学习人脸和姓名特征之间的相关性，从而阻碍在测试集上的准确人员检索。

表 3：在不同预训练模型上，ResNet50微调生成的不可学习样本的保护效果。

结语

在本文中，我们探索了多模态数据保护，特别关注图像-文本对，我们生成了多模态不可学习样本来防止被多模态对比学习利用。我们将先前的分类方法扩展到这个背景下，揭示了由于模态增加和数据分散而存在的局限性。鉴于这些发现，我们引入了一种名为多步误差最小化（MEM）的新颖生成方法，它基于EM框架。MEM有效地在噪声和文本触发器之间建立了捷径，并展示了在不同黑客模型之间的可转移性。此外，我们使用各种可视化工具验证了我们方法的有效性。我们的工作开辟了一个新的方向，预计将适用于其他模态对，如音频-文本和音频-图像对。

#Janus

DeepSeek新作Janus：解耦视觉编码，引领多模态理解与生成统一新范式

论文: https://arxiv.org/pdf/2410.13848
项目主页：https://github.com/deepseek-ai/Janus
模型下载：https://huggingface.co/deepseek-ai/Janus-1.3B
在线 Demo：https://huggingface.co/spaces/deepseek-ai/Janus-1.3B

我们提出了 Janus，一种基于自回归的多模态理解与生成统一模型。Janus 的核心思想是对理解和生成任务的视觉编码进行解耦，在提升了模型的灵活性的同时，有效缓解了使用单一视觉编码导致的冲突和性能瓶颈。实验表明，Janus 超越了此前的统一模型的效果，并取得了和纯理解 / 纯生成模型比肩或更好的性能。我们通过详细严格的对比实验证实了解耦的好处，并分析了理解生成统一训练相较于分开训练带来的影响。

在罗马神话中，Janus (雅努斯) 是象征着矛盾和过渡的双面守护神。我们将模型命名为 Janus，形象地表示我们的模型可以像 Janus 一样，用不同的眼睛看向视觉数据，分别编码特征，然后用同一个身体 (Transformer) 去处理这些输入信号。此外，得益于解耦的设计，Janus 极易扩展，研究者们可以将理解和生成领域最新的编码技术直接应用在 Janus 之上。我们希望我们提出的框架能和雅努斯一样，象征着多模态统一模型的旧范式到新范式的过渡。

2. 背景和动机

2.1 相关工作

多模态理解大模型和视觉生成模型都取得了飞速的发展。最近，也有一些工作尝试将这两者进行统一，构造更强大的通用模型。将理解和生成进行统一具有重大意义。从模型部署角度来说，统一之后能避免分开部署多个模型，减少了模型的冗余性。且社区对 LLM 的推理做了很细致的优化，如果能统一到一个 LLM 中，会很方便；从结果来说，理解和生成统一可以提高视觉生成的指令跟随能力，甚至解锁一些涌现能力，例如多语言视觉生成，或随着 LLM 的 scale up 获得更强的能力。

有一些先驱工作 (EMU, Seed) 尝试将预训练好的 Diffusion Model 接在多模态理解模型后面。这些方法中，多模态理解模型输出 Diffusion Model 的条件，然后依赖 Diffusion Model 做图像生成。但是，这样的设计中，LLM 本身并不具备直接出图的能力，出图的性能也往往被外接的 Diffusion Model 所限制。后来的一些工作 (Chameleon, Vila-U, Show-O 等) 则提出直接让 LLM 处理多模态理解和生成任务，真正做到了统一。但是，这些方法通常将视觉编码器也进行了合并，即：用一个视觉编码器同时负责理解与生成任务。

2.2 目前方法存在的问题

由于多模态理解和生成任务所需的信息不完全一致，视觉编码器的合并可能导致一些问题。(1) 多模态理解任务通常需要的是对图像或视频等视觉输入的高层语义理解，因此需要视觉编码器能够从低级像素信息逐渐转换为具有更高层语义的信息。(2) 对视觉生成任务来说，视觉编码器需要传递细粒度的视觉信息，通常需要保留更多的细节信息，例如纹理、颜色等。将这两个任务的视觉编码压缩到同一个表征空间中，会带来一些冲突和妥协。由于专门为多模态理解设计的编码器很多并不能直接来做视觉生成，现有的方案在挑选编码器时，往往优先考虑图像生成任务 (如使用 VQ Tokenizer 作为编码器)，导致目前的统一模型生成能力还不错，但是多模态理解能力和当前最先进的方法差异较大。

3. 方法

3.1 模型结构

为了解决单一视觉编码器带来的性能瓶颈，我们提出了对视觉编码进行解耦。具体来说，我们使用两个独立的视觉编码器分别负责多模态理解和生成任务，然后用一个统一的 Transformer 结构去处理不同的输入信息。

为了简化整个模型，我们在选取视觉编码器的时候没有进行复杂的设计。对多模态理解任务来说，我们使用 SigLIP-Large-Patch16-384 去编码特征。对视觉生成任务来说，我们使用 LlamaGen 中训练的标准 VQ Tokenizer 去编码。编码后的信息会分别经过一个 adaptor，然后送入 LLM 中。整个模型是使用 Next-Token-Prediction 的方式进行训练的，采用 causal attention mask，和 LLM 的训练方式一致。

3.2 训练流程

Janus 的训练分为三个阶段。(每一阶段使用的数据详情请参考 paper。整体上会控制多模态理解 + 纯文本理解：视觉生成 = 1:1)

在第一阶段，我们使用 Image Caption 数据和 ImageNet 文生图数据，对 understanding adaptor, generation adaptor, image head 这三个随机初始化的模块进行训练，起到 warm up 的效果。
在第二阶段，我们额外打开 LLM 和 text head，然后使用大量纯文本、图生文和文生图的数据进行联合预训练。对于文生图数据，我们会让 ImageNet 这部分数据出现在其他场景的文生图数据之前，先学习像素依赖关系，然后学习场景生成 (参照 Pixart 中的设定)。
在第三阶段，我们额外打开 understanding encoder，使用指令跟随数据进行训练。

3.3 推理流程

我们使用 Next-Token-Prediction 的方式进行推理，所以可以使用针对 LLM 进行的优化，例如 KV Cache, vLLM 等加速推理。对视觉生成任务，遵循之前的方法，我们还额外使用了 classifier-free guidance (cfg) 机制，即每个 token 的 logit 由以下公式得出：

其中，是无条件生成得到的 logit，s 是 cfg 权重，默认为 5。相应的，为了让 cfg 能顺利进行，我们在训练时会随机将 10% 的文生图数据置换为无条件生图。

3.4 可能的扩展

Janus 的设计非常灵活，易于扩展。

多模态理解方面，(1) 可以使用比 SigLIP 更强的 encoder，例如 EVA-CLIP 或 InternViT 6B，而不用担心这些 encoder 是否能来做生成。(2) 可以引入当前多模态理解领域先进的动态分辨率技术 (将图像切成多个子块，提供更好的细粒度理解能力) 和 pixel shuffle 压缩技术。
视觉生成方面，(1) 可以将当前的 VQ Tokenizer 替换成更好的 tokenizer，例如 MoVQGan 以及最近刚出的 HART (一种结合连续和离散的优点的 tokenizer)。(2) 可以为图像生成部分设计其他优化目标，如 diffusion loss。也可以将图像生成部分的 attention mask 改成双向的，这也被证实了比单向 mask 有更好的生成效果。
对更多模态的支持。Janus 的核心思想是解耦，对不同的输入使用不同的编码方式，然后用统一的 transformer 进行处理。这一方案的可行性，意味着 Janus 有可能接入更多的模态，如视频、3D 点云、EEG 信号等。这使得 Janus 有可能成为下一代多模态通用模型的有力候选。

4. 实验

4.1 实现细节

我们使用 DeepSeek-LLM (1.3B, pretrain 模型，未经过指令微调) 作为 LLM 的初始化。在理解和生成任务中，图像分辨率均为 384 * 384。我们用 DeepSeek 自研的 HAI-LLM 框架进行开发，整个训练流程需要在 16 台 8 Nvidia A100 (40GB) GPU 机器上跑 7 天时间。具体细节请参考论文。

4.2 和 state-of-the-arts 的比较

多模态理解 (Table 2)。Janus-1.3B 超越了之前同规模的统一模型。在一些 benchmark (POPE, MMBench, SEED Bench, MM-Vet) 上，Janus-1.3B 甚至超越了 LLaVA-v1.5-7B 的结果。这证实了视觉编码解耦对多模态理解性能带来了显著的提升。
视觉生成 (Table 3 和 Table 4)。Janus-1.3B 在图像质量评价 (MSCOCO-30K 和 MJHQ-30K) 和图像生成指令跟随能力 benchmark GenEval 上都取得了很不错的结果，超越了之前同规模的统一模型，和一些专用图像生成模型，如 SDXL。

4.3 消融实验

我们设计了严格的消融实验，一方面对 Janus 的视觉编码解耦这一观点进行验证，另一方面，研究联合训练对单任务训练的性能影响。

Baseline 介绍

我们首先按照 Chameleon 的设计，使用一个 VQ Tokenizer 去同时为理解和生成任务编码 (Exp-A)。这个 VQ Tokenizer 和 Janus 中视觉生成部分的编码器是同一个。考虑到这个编码器语义很弱，所以我们额外构造了一个更强的 baseline, Semantic Tokenizer (Exp-B)。

简单来说，这个 Semantic Tokenzier 基于原先的 VQ Tokenizer 构造，额外加了一个 semantic decoder，预测 SigLIP 产生的语义特征，具体细节请见论文的补充材料。通过这样的方式，一方面可以通过 semantic decoder，产生语义更强的图像特征；另一方面，可以使得 Semantic Tokenizer 编码出的图像 ID 具有更好的语义，局部连续性更强。请注意：为了方法的简单性。Semantic Tokenizer 仅在对比实验中使用，而没有在 Janus 中用。如果用了，Janus 应该会在视觉生成方面表现更好。

视觉编码解耦的影响

(1) 比较 Exp-A 和 Exp-D，我们发现 Exp-A 的图像生成效果还不错，COCO-FID 有 8.72，和 Janus (8.53) 类似。但是 Exp-A 的多模态理解性能明显拉胯。

(2) 当换上语义更强的 tokenizer (Exp-B)，我们发现多模态理解能力有了明显的提升，但和 Janus 相比还有一定距离。视觉生成方面，Exp-B (7.11) 比 Janus (8.53) 更好。我们猜测原因可能有两点。首先，Semantic Tokenizer 编码出的图像 ID 语义更强，作为 LLM 的预测目标更合理。其次，Semantic Tokenizer 的参数量显著高于 VQ Tokenizer。这也说明了 Janus 在视觉生成方面巨大的提升空间。

(3) 那么，使用同一个 Encoder，对理解的影响到底有多大呢？通过比较 Exp-B 和 Exp-C，我们发现仅使用 Semantic Tokenizer 做多模态理解，明显高于 Exp-B 中的结果。举例来说，MMBench 从 52.7 提高到 62.1。这说明使用单一视觉编码器确实在理解和生成任务上导致了冲突，牺牲了多模态理解的性能。

(4) 最后，我们探讨一下联合训练对单一任务的影响，见 Exp-D, Exp-E, Exp-F。这里为了公平，我们对迭代步数做了严格的控制。例如，让联合训练的模型和纯理解模型见过的多模态理解数据一样多。(其实这样对联合模型不太公平，因为联合模型的数据里，多模态理解的数据浓度相对更低)。最后发现联合训练可以在基本保持多模态理解的能力下，有效地加入视觉生成能力。

4.4 可视化

文生图可视化

如 Figure 4 所示，我们的模型相比于 SDXL, LlamaGen 有着更好的指令跟随能力，能对用户的 prompt 做出更精准的反馈。

涌现能力：多语言文生图

如 Figure 8 所示，我们还意外地发现，及时训练数据中只有英文文生图数据，但最后的模型涌现出了多语言文生图能力，如中文、法语、日语、甚至使用 emoji 🐶 都可以。我们认为这里的涌现能力来自于 LLM 预训练模型。

多模态理解可视化

请见以下两张图，相比于以前的大一统模型，我们的模型更聪明，能读懂 meme 图像。同时还能处理 latex 公式转换、图转代码等任务。

5. 总结

Janus 是一个基于自回归的统一多模态理解与生成框架，具有简单性、高效性和高度灵活性。通过解耦视觉编码，我们突破了当前多模态统一模型中的性能瓶颈，拉进了大一统模型和专用模型在专项任务上的性能差距，解锁了多模态统一模型的新范式。

#Multimodal Pathway

与任务无直接关联的多模态数据也能提升Transformer模型性能。

万万没想到，与任务无直接关联的多模态数据也能提升Transformer模型性能。

比如训练一个图像分类模型，除了标注好类别的图像数据集，增加视频、音频、点云等模态数据，也能显著提升模型在图像分类上的性能。

这样一来，在AI训练阶段就可以减少与特定任务直接相关的标注数据需求，可以节省大量成本，或在数据有限的任务上提供新解决思路。

这个神奇的发现来自港中文MMLab和腾讯AI Lab的合作研究，相关论文已被CVPR 2024接收，引起广泛关注。

论文地址：https://arxiv.org/abs/2401.14405

项目网页：https://ailab-cvc.github.io/M2PT/

开源代码：https://github.com/AILab-CVC/M2PT

讲解视频：https://www.bilibili.com/video/BV1Sm41127eW/

从无关数据中学习有用知识

具体来说，团队提出了一种称为多模态通路（Multimodal Pathway）的新框架。

该框架允许Transformer模型在处理特定模态的数据时，同时利用其他模态中的无关数据进行训练，从而在不增加额外推理成本的前提下显著提升模型性能。

多模态通路的核心技术是跨模态重参数化 （Cross-Modal Re-parameterization）*。

这一技术的创新之处在于，它通过结构上的智能重组，使得模型能够在保持原有计算成本的同时，增加从其他模态学习的能力。

对于已经被广泛运用到多模态特征提取的Vision Transformer，团队关心的是这些神经网络中的主要线性层。

具体来说，这一技术在模型的每一个线性层中引入了辅助模态的权重，这些权重通过可学习的参数进行调节，从而在不增加推理时间的情况下，实现模态间的知识迁移。

如图所示，比如有不同模态的两个线性层FC和FC’，那么跨模态结构重参数化就是要通过构建一个运算完全等价的线性层来承载两个模态的运算，在这里直接将来自不同模态的两部分权重 （W和W’） 做线性组合 （W+λW’） 来平衡两个模态的权重对于目标模态的贡献。

实验结果：跨模态增益挖掘Transformer潜力

在论文中，研究团队详细介绍了他们的实验设计和结果。

在图像识别、点云处理、视频理解和音频分析等多个任务上应用了多模态通路技术，观察到多模态通路 能够在12种不同的模态相互帮助的关系中实现一致的性能提升。

例如，在ImageNet图像识别任务中，结合了点云数据的多模态通路Transformer模型，比传统的Transformer模型在识别准确率上提高了0.7%。

与MAE预训练方法的各种改进相比，该方法无需高昂的计算成本来预训练1600 Epoch，而是直接在下游任务中微调，就能显著地提升模型性能。这充分展示了多模态学习在处理大规模复杂数据集时的强大潜力。

研究人员还发现，跨模态知识迁移的效果不仅与模型参数规模有关，还可能与层次表示（Hierarchical Representation）能力密切相关。也就是越擅长学习层次化的抽象表示的模型，迁移效果就越好。

更值得注意的是，该方法有效地证明了即使毫不相关的多模态数据之间，仍能存在着明显的多模态增益效果，这充分说明我们现在对多模态学习的理解与认知还有很大的提升空间。

总的来说，这项研究不仅能够启发多模态学习在学术领域的发展，也为工业界提供了新的思路。通过利用现有的海量数据资源，即使这些数据与当前任务不直接相关，也能够为AI模型的训练带来积极的影响。

这种方法为数据资源有限或难以标注的领域提供了新的解决方案，特别是在自动驾驶、医疗影像分析、自然语言处理等技术要求极高的领域，多模态通路技术的应用前景广阔。

此外，这一研究还揭示了AI跨模态学习的新机制，推动了学界对于不同数据模态间交互和协同处理的深入理解。研究团队表示，未来他们将探索将多模态通路技术应用于卷积神经网络（CNN）和其他跨架构的AI系统，以进一步挖掘这一技术的潜力。

#OCR-Omni

OCR-Omni来了，字节&华师提出统一的多模态文字理解与生成大模型

本篇分享 NeurIPS 2024 论文Harmonizing Visual Text Comprehension and Generation，字节&华师提出统一的多模态文字理解与生成大模型。

论文链接: https://arxiv.org/abs/2407.16364

代码开源: https://github.com/bytedance/TextHarmony

研究背景与挑战

在人工智能领域，赋予机器类人的图像文字感知、理解、编辑和生成能力一直是研究热点。目前，视觉文字领域的大模型研究主要聚焦于单模态生成任务。尽管这些模型在某些任务上实现了统一，但在 OCR 领域的多数任务上仍难以达成全面整合。

例如，Monkey 等视觉语言模型（VLM）擅长文字检测、识别和视觉问答（VQA）等文本模态生成任务，却无法胜任文字图像的生成、抹除和编辑等图像模态生成任务。反之，以 AnyText 为代表的基于扩散模型的图像生成模型则专注于图像创建。因此，OCR 领域亟需一个能够统一多模态生成的大模型。

关键问题多模态生成的内在矛盾

研究人员发现，多模态生成大模型面临视觉与语言模态之间的固有不一致性，这往往导致模型性能显著下滑。如图所示，在文本生成任务上，多模态生成模型相比单模态生成模型效果降低5%，在图像生成上降低了8%。为应对这一挑战，近期的一些研究采用了特定模态的监督微调，从而分别优化文字生成和图片生成的模型权重。然而，这种方法与统一视觉理解与生成的初衷相悖。

为解决这一难题，字节跳动与华东师范大学的联合研究团队提出了创新性的多模态生成模型 ——TextHarmony。该模型不仅精通视觉文本的感知、理解和生成，还在单一模型架构中实现了视觉与语言模态生成的和谐统一。

TextHarmony: 突破性贡献

TextHarmony 的核心优势在于其成功整合了视觉文本的理解和生成能力。传统研究中，这两类任务通常由独立模型处理。TextHarmony 通过融合这两大类生成模型，实现了视觉文字理解和生成的同步进行，从而统筹了 OCR 领域的多数任务。

研究表明，视觉理解和生成之间存在显著差异，直接整合可能导致严重的模态不一致问题。具体而言，多模态生成模型在文本生成（视觉感知、理解）和图像生成方面，相较于专门的单模态模型，性能出现明显退化。

数据显示，多模态生成模型在文本生成任务上较单模态模型效果降低 5%，图像生成任务上最高降低 8%。而 TextHarmony 成功缓解了这一问题，其在两类任务上的表现均接近单模态专家模型水平。

技术创新

TextHarmony 采用了 ViT、MLLM 和 Diffusion Model 的组合架构：

ViT 负责图像到视觉 token 序列的转换。
MLLM 处理视觉 token 和文本 token 的交叉序列，输出两类 token：

文本 token 经文本解码器转化为文本输出。
视觉 token 与文本 token 结合，作为 Diffusion Model 的条件指引，生成目标图像。

这种结构实现了多模态内容的全面理解与生成。

Slide-LoRA：解决方案

为克服训练过程中的模态不一致问题，研究者提出了 Slide-LoRA 技术。该方法通过动态整合模态特定和模态无关的 LoRA（Low-Rank Adaptation）专家，在单一模型中实现了图像和文本生成空间的部分解耦。

Slide-LoRA 包含一个动态门控网络和三个低秩分解模块：

模态特定 LoRA 专家聚焦于特定模态（视觉或语言）的生成任务。
模态无关 LoRA 专家处理跨模态的通用特征。
动态门控网络根据输入特征，灵活调度不同专家的参与度。

DetailedTextCaps-100K: 高质量数据集

为提升视觉文本生成性能，研究团队开发了 DetailedTextCaps-100K 数据集。该集利用闭源 MLLM（Gemini Pro）生成详尽的图像描述，为模型提供了更丰富、更聚焦于视觉和文本元素的训练资源。

训练策略

TextHarmony 采用两阶段训练方法：

首阶段利用 MARIO-LAION 和 DocStruct4M 等图文对预训练对齐模块和图像解码器，构建基础的文本生成与图像生成能力。
次阶段运用视觉文本的生成、编辑、理解、感知四类数据进行统一微调。此阶段开放 ViT、对齐模块、图像解码器和 Slide-LoRA 的参数更新，以获得统一的多模态理解与生成能力。

实验评估

研究者对 TextHarmony 在视觉文本场景下进行了全面评估，涵盖理解、感知、生成与编辑四个维度：

视觉文本理解：TextHarmony 显著优于多模态生成模型，性能接近 Monkey 等专业文字理解模型。

视觉文本感知：在OCR定位任务上，TextHarmony超过了TGDoc、DocOwl1.5等知名模型。

视觉文本编辑与生成：TextHarmony 大幅领先于现有多模态生成模型，且与 TextDiffuser2 等专业模型相当。

文字生成效果对比

文字编辑效果对比

文字图像感知与理解可视化

总结与展望

TextHarmony 作为 OCR 领域的多功能多模态生成模型，成功统一了视觉文本理解和生成任务。通过创新的 Slide-LoRA 技术，它有效解决了多模态生成中的模态不一致问题，在单一模型中实现了视觉与语言模态的和谐统一。TextHarmony 在视觉文字感知、理解、生成和编辑方面展现出卓越性能，为复杂的视觉文本交互任务开辟了新的可能性。

这项研究不仅推动了 OCR 技术的进步，也为人工智能在理解和创造方面的发展提供了重要参考。未来，TextHarmony 有望在自动文档处理、智能内容创作、教育辅助等多个领域发挥重要作用，进一步推动人工智能的应用。

#VLoRA

一种参数空间对齐的多模态大模型范式

本文提出了一种参数空间对齐的多模态大模型范式，该范式将输入图像特征转换成LoRA权重并合并到LLM中，使LLM感知图像视觉信息。该范式避免了在LLM的输入序列中引入视觉标记，在训练和推理上都非常高效。

主页：https://feipengma6.github.io/vlora/

论文：https://arxiv.org/pdf/2405.20339

代码：github.com/FeipengMa6/VLoRA

输入空间对齐范式1.1 介绍

在进入正题之前，我们先简单回顾一下当前主流的MLLM范式。

以最具代表性的LLaVA[1]为例，

Figure 1. LLaVA的结构框图

对于输入的图像，通过视觉编码器（Vision Encoder）和映射模块（Projection）提取特征，得到一个由视觉标记（Visual Tokens）组成的视觉序列，然后将视觉序列和文本在序列维度上拼接，一同输入到LLM中进行训练。在训练过程中，视觉序列是在对齐LLM的输入空间以让LLM能够理解视觉信息，我们称这种范式为输入空间对齐范式。

输入空间对齐范式有2个特点：

1. 视觉信息序列化，和文本信息具有相同的表现形式图像经过视觉编码器之后会变成视觉标记，然后通过映射模块映射到和文本标记（Text Tokens）相同的特征维度，最后形成了和文本信息相同的表现形式，即序列。

2. MLLM中视觉和文本的模态交互通过注意力机制进行视觉信息序列化之后，会将视觉序列与文本序列在序列维度上拼接，然后同时输入给LLM。在前向传播的过程中，视觉与文本通过注意力机制产生模态交互。

目前主流MLLM遵从输入空间对齐范式，比如Qwen2-VL[2]，DeepSeek-VL[3]，和InternVL2[4]，如Figure 2所示。

Figure 2. 输入空间对齐范式：Qwen2-VL, DeepSeek-VL 和 InternVL2

1.2 问题

输入空间对齐范式使用CLIP可以很容易将视觉特征对齐到LLM输入空间，因为CLIP的视觉特征预先和文本对齐过，本身具备丰富的语义信息，但是在训练和推理时计算效率低。

在输入序列达到一定长度的情况下，LLM的计算量集中在注意力机制部分，当输入序列长度为 n 时，计算复杂度为，也就是说LLM的计算量随着输入序列长度而平方增长。LLaVA-v1.5的视觉编码器为ViT-L-14，对于单张图像，产生的视觉标记的数量为576。而考虑到高分辨率图像输入，一些工作会将图像切分成多个子图，分别转换成视觉标记，最后产生非常长的视觉序列。比如，Sphinx-2k[5]的视觉序列长度为2890，InternLM-Xcomposer2-4KHD的视觉序列长度甚至可以达到8737。然而，视觉序列长度的增长会导致MLLM的计算量急剧增加。特别是在预训练阶段，MLLM通常在网络爬取的图像文本对上进行预训练，文本长度通常比较短，比如LAION-2B的文本平均长度为10.95，视觉token的数量是文本的20~50倍，这意味着视觉标记引入了绝大部分的计算量，影响了训练效率。

2. 参数空间对齐范式

为了解决上面的问题，我们提出了参数空间对齐范式，将视觉信息表征为模型权重合并到LLM中，从而在不引入额外计算量的情况下使LLM能够感知视觉信息。

Figure 3. 参数空间对齐范式

参数空间对齐范式的核心是将视觉信息表征为模型权重，并融合到LLM的参数中。整体流程如Figure 3 所示。

LLM中Self-attention包含和，共4个权重矩阵，Feed-forward Network包含和共2个权重矩阵。这里我们用来表示LLM的权重矩阵，为隐藏层维度。

对于输入图像 , 先使用视觉编码器来提取图像视觉特征, 得到是 visual token的数量，是视觉特征的维度。

然后，我们设计了感知权重生成模块来将视觉特征转化为感知权重，这里值得注意的是, 为了尽可能保持LLM本身的语言能力, 是一个低秩矩阵, 同时, 这也有利于减少生成感知权重的计算开销。

得到感知权重后, 我们可以直接将其融合到LLM的权重中, 。

通过将从视觉特征转化来的权重整合到LLM的权重中，LLM自然就具备了视觉感知能力。在合并权重后，不会给LLM带来额外的计算开销。对于LLM中每个解码层中的任意类型权重(q, k, v, o, m)，我们都可以生成相应的感知权重并将其整合到对应权重中。

3. 感知权重生成模块

Figure 4. 感知权重生成模块

我们设计了感知权重生成模块来将视觉特征转化为感知权重，对于LLM中不同类型的权重，我们用不同的感知权重生成模块来生成对应的感知权重。以下是对单一类型的权重生成的介绍。

如Figure 4(a) 所示, 我们的感知权重生成模块是Decoder-only结构的, 有层解码层, 每层由 self-attention 模块，cross-attention模块，和feed-forward network组成。首先，感知权重生成模块的self-attention模块的输入是个感知查询标记（perceptual queries），感知查询标记的数量对应我们想要合并权重的LLM层数，即生成的感知权重的数量。然后，在cross-attention模块中，视觉特征与感知查询标记交互，最后通过feed-forward network，得到个，其中是感知权重模块的隐藏层维度，并且该特征维度远小于LLM的隐藏层维度（比如），有。我们的目的是获得个，而直接使用线性层将的特征维度从升维到会引入极大的参数量，同时，这么一个高维矩阵直接合并到原始权重中可能会影响LLM本身的语言能力。因此，我们先采用一个共享的线性层，将个分别升维到的维度，其中，重整形状为，称为视觉参数。接下来，对于个视觉参数，我们采用个不同的线性层分别进行升维，得到感知权重。

最后我们将感知权重合并到 LLM 权重中，有，考虑到和的低秩特性, 我们可以观测到上式和LoRA具有相同的形式, 如Figure 4(b)所示, 其中相当于LoRA中的相当于 , 因此, 我们的感知权重生成模块也可以视为 "LoRA权重生成器"。

4. 实验结果

我们采用和LLaVA-v1.5相同的设置，用Vicuna-7b-v1.5作为LLM，CLIP-ViT-L-14作为视觉编码器。我们对所有权重类型都生成LoRA权重，秩为64，并且每隔4层合并到LLM权重中。预训练数据我们从Capsfusion-120M中采样30M，微调数据我们采用和LLaVA-v1.5相同的数据。

4.1 和现有MLLM对比

Table 1. 主要实验结果

在Table 1中，我们在多个MLLM评测基准上进行了测试，包括MMBench，MME，ScienceQA，HallusionBench MMMU和CCBench。由于我们的VLoRA不需要在LLM推理过程中引入额外的视觉标记，计算量相比其他方法显著减少。在性能上，在MMBench，ScienceQA和HallusionBench上，可以达到和LLaVA-v1.5可比的结果，在CCBench上达到了28.6，超过了LLaVA-v1.5的27.5。在MME上VLoRA落后于LLaVA-v1.5，这可能是因为我们的感知权重生成器是随机初始化的，预训练不够充分。

4.2 在相同数据下和LLaVA-v1.5对比

Table 2. 消融实验

为了更公平的对比，我们在不同的设置下复现LLaVA-v1.5，包括使用Capsfusion-30M作为预训练数据，将Projector换成QFormer(和我们的权重生成模块相似的结构)。在Table 2中，第2行是将LLaVA-v1.5的预训练数据换成Capsfusion-30M的结果，可以看到，在使用了更多预训练数据的情况下，LLaVA-v1.5的性能并没有进一步提升，甚至在MME，HallusionBench，MMMU和CCBench上有所下降，说明了在相同的预训练数据下，VLoRA的性能是和LLaVA-v1.5可比的。第3行是使用QFormer结构作为LLaVA-v1.5的映射模块的结果，我们可以发现该设置下VLoRA 除了在ScienceQA和HallusionBench上略微低于LLaVA-v1.5，在其他评测榜单上都超过了LLaVA-v1.5。

5. 未来展望

VLoRA在参数空间对齐上做了尝试，初步验证了这种范式的有效性，目前还处于一个初级阶段，还有很多值得探索的地方，包括更合适的视觉编码器，更大规模的预训练，扩展到多图，视频场景，扩展到更多的模态等。

#MMCA

多模态动态权重更新，视觉定位新SOTA

本文介绍了一种名为多模态条件适应（MMCA）的新方法，它通过动态更新视觉编码器的权重来改善视觉定位任务中的特征提取，该方法在四个代表性数据集上取得了显著的性能提升。论文还提出了灵活的多模态条件变换器和卷积模块，可以作为即插即用组件应用于其他视觉引导模型。

论文地址：https://arxiv.org/abs/2409.04999

论文代码：https://github.com/Mr-Bigworth/MMCA

创新点

提出了多模态条件适应（MMCA）方法，该方法从一种新颖的权重更新视角改善了视觉引导模型中视觉编码器的特征提取过程。
将提出的MMCA应用于主流的视觉引导框架，并提出了灵活的多模态条件变换器和卷积模块，这些模块可以作为即插即用组件轻松应用于其他视觉引导模型。
进行广泛的实验以验证该方法的有效性，在四个具有代表性的数据集上的结果显示出显著的改善，且成本较小。

内容概述

视觉定位旨在将传统的物体检测推广到定位与自由形式文本描述相对应的图像区域，已成为多模态推理中的核心问题。现有的方法通过扩展通用物体检测框架来应对这一任务，使用独立的视觉和文本编码器分别提取视觉和文本特征，然后在多模态解码器中融合这些特征以进行最终预测。

视觉定位通常涉及在同一图像中定位具有不同文本描述的物体，导致现有的方法在这一任务上表现不佳。因为独立的视觉编码器对于相同的图像生成相同的视觉特征，从而限制了检测性能。最近的方法提出了各种语言引导的视觉编码器来解决这个问题，但它们大多仅依赖文本信息，并且需要复杂的设计。

受LoRA在适应不同下游任务的高效性的启发，论文引入了多模态条件适配（MMCA），使视觉编码器能够自适应更新权重，专注于与文本相关的区域。具体而言，首先整合来自不同模态的信息以获得多模态嵌入，然后利用一组从多模态嵌入生成的权重系数，来重组权重更新矩阵并将其应用于视觉定位模型的视觉编码器。

MMCA

MMCA遵循典型的端到端编码器-解码器范式：

给定一幅图像和一个语言表达作为输入将其输入到编码器部分，以生成相应的特征嵌入。

a. 在语言分支中, 语言主干将经过分词的语言表达作为输入, 并提取文本特征，其中是语言标记的数量。

b. 在视觉分支中，CNN主干首先提取一个二维特征图，然后经过一系列变换器编码器层，生成一个展平的视觉特征序列

c. 多模态条件适应（MMCA）模块以层级方式应用于卷积层和变换器层的参数矩阵。该模块同时接受视觉和文本特征作为输入，并动态更新视觉编码器的权重，以实现基于语言的视觉特征提取。

将视觉和文本特征嵌入连接在一起，并在多模态解码器（视觉-语言变换器）的输入中添加一个可学习的标记 [REG]，该解码器将来自不同模态的输入标记嵌入对齐的语义空间，并通过自注意力层执行模态内和模态间的推理。
回归头使用 [ REG ] 标记的输出状态来直接预测被指对象的四维坐标。与真实框的训练损失可以表述为:

条件适应

对于视觉引导任务，论文希望不同的指代表达能够控制视觉编码器的一组权重更新，从而引导编码器的注意力集中在与文本相关的区域。然而，直接生成这样的矩阵带来了两个缺点：（1）这需要一个大型参数生成器。（2）没有约束的生成器可能在训练中对表达式过拟合，而在测试期间却难以理解表达式。

受LoRA的启发，让网络学习一组权重更新的基矩阵并使用多模态信息重新组织更新矩阵。这使得参数生成器变得轻量，并确保网络的权重在同一空间内更新。

具体而言，先对权重更新矩阵进行分解，并将其重新表述为外积的和，通过并使用加权和来控制适应的子空间：

为了简化并且不引入其他归纳偏差，使用线性回归来生成这一组权重：

其中是参数矩阵, 是特定层的多模态嵌入，它是由文本特征和从前一层输出的视觉特征生成的。

与迁移学习任务不同，这里并不打算微调一小部分参数以适应特定的下游任务，而是希望视觉编码器能够适应各种表达。因此，所有参数矩阵在训练阶段都是可学习的。

多模态嵌入

仅依赖文本信息来引导视觉编码器可能会在某些应用中限制灵活性，并且性能可能会受到文本信息质量的影响。为了缓解这些问题，采用门控机制来调节文本信息的输入。

给定文本特征和展平的视觉特征，使用简单门控机制来融合视觉和文本嵌入：

最后，融合嵌入被用来生成系数，从而指导视觉编码器的权重更新。

适配视觉定位

基于视觉编码器（卷积层和Transformer层），进一步提出了多模态条件Transformer和多模态条件卷积，用于将MMCA应用于视觉定位中。

多模态条件Transformer

视觉主干中的Transformer编码器层主要由两种类型的子层组成，即MHSA和FFN。通过应用多模态条件适应，MHSA和FFN的计算变为：

其中是查询、关键和MLP块的线性投影的条件权重更新。

多模态条件卷积

为了便于应用多模态条件适应, 将卷积权重更新展开为一个 2-D 矩阵并用两个矩阵进行近似, 秩为。于是, 卷积块的多模态条件适应可以通过两个连续的卷积层和来近似:

其中和分别是来自前一卷积层的视觉特征和从多模态嵌入生成的权重系数。在通道维度上计算系数与输出的点积, 并将输出输入到 , 这相当于重新组织权重更新。

主要实验

#强化学习技术全面解读 SFT、RLHF、RLAIF、DPO

本文从强化学习如何增强大语言模型（LLMs）的视角，进行系统性全面解读，涵盖强化学习的基础知识、流行的RL增强LLMs、基于奖励模型的RL技术（RLHF和RLAIF），以及直接偏好优化（DPO）方法。其目的旨在能够根据输出质量获得奖励反馈，从而提高生成内容的准确性、连贯性和上下文适当性。

可带着如下问题深入阅读：什么是强化学习以及有哪些强化学习方法，如何在训练过程中引入人类反馈以优化模型行为，以及如何在没有显式奖励模型的情况下直接利用人类偏好数据进行对齐。

01 引言

大语言模型（LLMs）是一些在大量文本数据上预训练的复杂语言模型，使它们能够对多样化的输入产生连贯流畅的响应。然而，这些预训练的大语言模型（LLMs）的互动能力可能不一致，有时会导致响应虽然在技术上正确，但可能对用户有害、有偏见、误导或与用户需求无关。因此，在将这些预训练的LLMs的输出有效地应用于各种自然语言任务之前，将其与人类偏好对齐至关重要。

以前，一种广泛采用的将预训练LLMs的输出与人类偏好对齐的方法是监督微调（SFT）。这种方法进一步在（指令、答案）对 上对LLMs进行训练，其中 “指令”代表给模型的提示，“答案”是根据指令得到的目标输出。SFT帮助引导大语言模型生成符合特定特征或领域知识的响应，使人类能够与大语言模型进行互动。

尽管SFT效果显著，但它也存在一些限制：

在训练过程中，模型被限制学习人类提供的具体答案，而像困惑度（PPL）这样的指标会惩罚同义词的使用。一方面，这可能会妨碍大语言模型泛化的能力，因为像写作和总结这样的任务有多种有效的措辞方式。另一方面，它可能导致在符合人类偏好方面的表现不佳，因为在训练过程中没有纳入直接的人类反馈。

为了缓解上述问题，采用强化学习（RL）来对齐大语言模型的输出与人类偏好， 可以分为三个步骤：

首先，在微调之前，训练一个奖励模型（或奖励函数）来近似人类偏好并为不同的大语言模型输出打分；
然后，在每个微调迭代中，给定一条单独的指示，大语言模型生成多个响应，每个响应都由训练好的奖励模型打分；
最后，策略优化，一种强化学习的优化技术，根据这些偏好分数更新大型语言模型的权重以改进预测。

使用RL对大语言模型进行微调可以同时解决上述问题。简而言之，RL不是被限制学习一个特定的答案，而是根据各种偏好分数调整大语言模型，奖励任何有效且措辞得当的响应。在另一条线上，奖励模型旨在近似人类偏好，使得可以直接根据人类偏好进行训练，并促进大语言模型（LLM）产生令人印象深刻的创造力。

02 基础知识：强化学习

强化学习（RL）是机器学习中的一个关键方法，关注智能体如何与环境互动以最大化累积奖励。与依赖标注数据的监督学习和在未标注数据中发现模式的无监督学习不同，RL强调通过试错获得直接反馈的学习方式。下面，我们依次描述RL的基本定义和一般流程。

2.1 基本定义

在深入探讨训练过程之前，首先介绍一些相关术语：

智能体：训练来做正确决策的实体。在这个例子中，目标是训练机器人做出移动决策，所以机器人就是智能体。

环境：环境是智能体与之互动的外部系统。在本例中，随着训练过的机器人（智能体）在网格内移动，网格就充当了环境。

状态：代表智能体在每个时间 t 的位置。在起始时刻，即时间_t_0，机器人（智能体）位于左下角，因此时间_t_0的状态是左下角，由坐标（0,0）表示。

动作：动作代表智能体在每个时间t在环境中可用的可能选择。例如，在开始时，即时间t0，机器人（智能体）可以选择向右或向上移动，使得这两个动作在t0时对智能体可用。

奖励：由环境根据智能体在每个时间采取的动作提供的信号或反馈。例如，在时间，机器人（智能体）向右移动将获得+5分的奖励，向上移动则会被扣除-1分的惩罚。

策略：一组决策策略，帮助智能体在每个时间选择一个动作。在实践中，在时间，策略代表一种概率分布，指导机器人（Agent）向右或向上移动，以最大化其累积奖励。

2.2 强化学习流程

如图 1 中的训练示例来说明RL的全过程。 在这个例子中，我们的目标是训练一个机器人从正方形的左下角移动到右下角。 此外，每个网格单元都有一个奖励分数，我们的目标是最大化机器人的总分数。

一般的强化学习（RL）流程可以表示为一个马尔可夫决策过程（MDP）。具体来说，代理从初始状态 s0 开始，在每个时间步骤 t，它基于当前状态选择一个动作at，然后进入一个新状态 st+1，代理获得奖励rt。这个循环持续进行，代理的目标是最大化其随时间累积的奖励。

映射到图1中的具体例子，在初始时间t0，机器人位于左下角，由位置（状态）s0 表示。随着时间的推移，在每个时间步骤t，机器人选择一个动作at（向上或向右移动）。这个动作使机器人从其当前位置 st 过渡到新位置 st+1，同时获得奖励t。这种移动和收集奖励的循环持续进行，直到机器人达到右上角的期望位置（状态），实现最大累积奖励的目标。

2.3 强化学习用于LLMs

现在深入探讨使用强化学习对大语言模型进行微调的过程。这种方法旨在使大语言模型（LLMs）与期望的行为保持一致，提高其性能，并确保其输出既有效又可靠。

在强化学习中，有六个关键组成部分：代理、环境、状态、动作、奖励和策略。要将RL应用于微调大语言模型，第一步是将这些组件映射到LLM框架。LLMs擅长预测下一个token，它们以一系列tokens作为输入，并根据给定的上下文预测下一个token。从强化学习的角度来看，可以将LLM本身视为策略。

图2：用于大语言模型（LLMs）的强化学习（RL）框架

图2展示了针对大语言模型的具体强化学习框架。从一个通过监督学习训练过的指令调整模型开始，使其能够生成针对人类指令的结构化响应，应用以下两个步骤：

步骤1：收集比较数据，并训练一个奖励模型。 收集一个指令调整模型输出之间比较的数据集，其中标注者指出他们对于给定输入更倾向于哪个输出。然后，使用收集到的数据集来训练一个奖励模型（RM），以预测人类偏好的输出。

步骤2：使用PPO针对奖励模型优化策略。 利用奖励模型的输出来作为一个标量奖励，并使用PPO算法微调指令调整模型以优化该奖励。

2.4 强化学习方法（重点）

最近流行且具有强大能力的大语言模型几乎都利用强化学习（RL）在训练后过程中进一步提升其性能。

这些模型采用的强化学习方法通常可以分为两个主要方向：

1. 传统强化学习方法，如 RLHF 和 RLAIF。 这些方法需要训练一个奖励模型，并涉及复杂且通常不稳定的过程，使用算法如近端策略优化（PPO）来优化策略模型。

2. 简化方法，如 DPO 和 RPO。 这些方法摒弃了奖励模型，提供了一个稳定、高效且计算效率高的解决方案。从监督微调到偏好优化

当下最流行的 LLMs 训练流程大概可以分为以下三步：预训练(Pre-Training，PT)、监督微调(Supervised Fine-Tuning，SFT)和偏好优化(PreferenceOptimization，PO)。

预训练时，语言模型在超大规模的语料中进行学习，并初步掌握基本的语法规则、逻辑能力、常识知识等等。但是，用于训练的语料中难免存在偏离人类价值观的数据，使LLMs不足够符合人类的偏好。同时，预训练的目标仅仅是根据上文补全单词，无法使LLMs具备对话和问答能力。

因此，为了实现更好的与人交互，进一步的训练成为必须。

2.4.1 监督微调（SFT）

SFT 是指在预训练好的LLMs的基础上，利用带有标签的数据集来进一步训练模型，使之能够执行特定的下游任务。通常LLM的PT过程是无监督的，Fine-tuning过程是有监督的。

一种最简单的思路就是，照搬预训练的目标函数和损失函数进一步微调，但是改变数据的质量和格式。

为了使LLMs对齐人类价值观，可以专门选一些符合人类价值观的数据；为了让 LLMs适应对话和问答场景，可以构造一问一答或者多轮问答的数据。

经过上述数据的训练，模型将拟合这部分数据的特性，从而达到我们的目的，这一过程也被称为监督微调。

SFT之后为什么还要RLHF？

1、SFT无法提供负反馈

SFT训练是让模型学习条件概率的过程，即监督式学习nexttoken最大化条件概率。能学到什么是正确的nexttoken，但不能学到什么是错误的next token，没有负反馈机制。
正确的文本，它可能有局部是不正确的，这些局部错误的知识内容也会在 SFT 的过程中被模型学到。

2、SFT无法“向后看”

SFT具有从前到后的单向注意力结构缺陷，每一个 token 都只看得见它前面的 tokens。
前半段错误，后半段在否定前半段的内容。SFT只参考前面信息的情况下，则是一种局部的有偏的训练方法。
通过人类反馈，RLHF可以帮助模型更好地理解复杂的上下文和长距离依赖关系。

3、减少偏见和不当内容

SFT可能会生成带有偏见或不当内容的文本，因为它是从数据中学习语言模式，而数据本身可能包含偏见。
RLHF可以通过奖励那些符合社会价值观和伦理标准的行为，减少模型生成带有偏见或不当内容的风险。

4、提高安全性和伦理性

由于SFT缺乏对生成内容的直接控制，可能会导致生成有害、不准确或不适当的内容。
RLHF 可以通过人类的监督和反馈来提高模型的安全性和伦理性确保生成的内容是合适的。

5、多样性和泛化性对比

在模型的泛化性上，经过RLHF训练之后的效果是要优于只进行SFT阶段的模型。
在生成回复的多样性上，RLHF是要远远弱于SFT的。不管输入如何，经过了RLHF的模型都倾向于产生更相似的回复。

2.4.2 基于人类反馈的强化学习（RLHF）

RLHF 是一种训练方法，它将强化学习（RL）与人类反馈相结合，以使大语言模型（LLMs）与人类的价值观、偏好和期望保持一致。

RLHF主要包括两个组成部分：

（1）收集人类反馈来训练奖励模型，其中人类评估者通过对 LLM 输出的质量、相关性等因素进行评分或排名，提供反馈。然后使用这些反馈来训练一个奖励模型，该模型预测输出的质量，并在强化学习过程中作为奖励函数；

（2）使用人类反馈进行偏好优化，其中训练好的奖励模型指导LLM输出的优化，以最大化预测奖励，使LLM的行为与人类偏好保持一致。

2.4.3 基于AI反馈的强化学习（RLAIF）

RLAIF方法利用AI系统提供对 LLMs 输出的反馈，作为RL的替代或补充。具体方法包括：（1）通过蒸馏AI反馈来训练奖励模型；（2）将LLMs作为奖励函数；（3）自奖励机制。

例如，Magpie 介绍一种自我合成方法，该方法利用对齐的 LLMs 的自回归特性。通过使用预定义模板作为提示，模型自主生成用户查询及相应的响应，无需手动干预或初始种子问题。

具体来说，如下图所示，使用对齐的LLMs（例如Llama-3-Instruct模型）合成400万个指令-响应对，随后过滤数据集保留30万个高质量对，被用来微调Llama-3-8B-Base模型。值得注意的是，经过微调的模型表现与官方的Llama-3-8B-Instruct模型相当，后者通过监督式微调和带有人类反馈的强化学习在1000万个示例上进行训练。此外，使用Magpie微调的模型在诸如AlpacaEval之类的对齐基准测试中表现优异，超越了其他开放数据集上训练的模型和偏好优化方法。

2.4.4 直接偏好优化（DPO）

虽然强化学习通过RLHF或 RLAIF 是有效的，但通常因RL算法的挑战以及需要精确训练的奖励模型而复杂化。

DPO，通过直接使用人类偏好数据来微调大语言模型（LLMs），从而绕过了奖励模型。DPO将目标从奖励最大化重新定义为偏好优化，并提供了一种直接且可能更稳健的途径，用于将LLM输出与人类期望对齐。

03 流行的强化学习增强的LLMs

在本部分中，简要概述这些经过强化学习的语言模型，然后解释如何在它们的训练后过程中应用强化学习。

表1：强化学习增强的大语言模型概览

3.1 InstructGPT

InstructGPT 是由OpenAI从 GPT-3 微调而来的一系列语言模型，利用人类反馈更好地与人类意图对齐。该系列包括三种大小的模型：参数量为13亿、60亿和1750亿。

首先使用从 OpenAI API 收集的提示或由标注员编写的监督学习进行微调;
进一步使用 RLHF 进行微调。

人类评估显示，InstructGPT的输出比GPT-3更受青睐。值得注意的是，尽管参数量少100倍，13亿参数的InstructGPT模型仍优于1750亿的GPT-3。此外，InstructGPT在真实性和减少有害输出方面表现出改善，且在公共自然语言处理数据集上的性能损失最小。

在应用强化学习（RL）之前，作者训练一个从监督微调（SFT）模型初始化的60亿奖励模型（RM），去掉了最后的非嵌入层。该RM使用由标注员排名的比较数据进行训练。

在RL阶段，使用PPO算法微调SFT模型，以优化来自RM的标量奖励输出。为了解决公共自然语言处理数据集上的性能退化问题，尝试将预训练梯度和PPO梯度混合，从而产生了被称为PPO-ptx的模型。

3.2 GPT-4

GPT-4 是由 OpenAI 开发的一个多模态大模型，能够处理图像和文本输入以生成文本输出。它在理解和生成自然语言方面表现出色，尤其是在复杂和微妙场景中。

评估显示，GPT-4在一系列人类设计的考试上表现异常优秀，通常超过大多数人类考生。此外，它的表现优于早期的大语言模型和大多数最先进的系统，后者通常依赖于特定基准的训练或手工设计的解决方案。

在训练后的对齐阶段，GPT-4 利用了 InstructGPT 中概述的基于人类反馈的强化学习（RLHF）方法。为了更有效地引导模型在更细粒度层面拒绝不适当的内容，作者进一步使用零样本GPT-4分类器作为基于规则的奖励模型（RBRM）。

RBRM 在针对训练提示子集的PPO微调期间，为GPT-4策略模型提供额外的奖励信号。RBRM接收一个提示（可选）、策略模型的输出以及一个人类编写的评分标准（例如，一套多项选择题式的规则），然后根据评分标准对输出进行分类。通过这种方法，GPT-4 因拒绝有害内容和适当回应已知安全提示而受到奖励。

3.3 Gemini

Gemini 代表由谷歌开发的一系列先进多模态模型，以其令人印象深刻的能力而著称。最初版本的Gemini 1.0有三种尺寸——Ultra, Pro, and Nano，性能从大到小排列，每种尺寸都经过定制，以满足特定的计算限制和应用需求。

值得注意的是，最强大的变体 Gemini-Ultra在32项基准测试中有30项取得了最先进的结果，并且是第一个在多模态语言理解（MMLU）上达到人类专家级性能的模型，同时在所有20项多模态基准测试中刷新了新记录。

Gemini 实施了一个训练后过程，该过程利用优化的反馈循环，收集人机互动以推动关键性能领域的持续改进。在训练后的基于人类反馈强化学习（RLHF）阶段，采用了迭代方法，通过强化学习逐步增强奖励模型。

与此同时，奖励模型通过系统评估和数据收集不断进行精细化。这种动态相互作用促进了强化学习和奖励模型的持续进步，随着时间的推移性能逐渐提升。

3.4 InternLM2

InternLM2 是由上海人工智能实验室开发的一系列开源大语言模型，提供三种尺寸：18亿、70亿和200亿参数。得益于创新的预训练和优化技术，该模型在六个维度和30项基准测试中展现了卓越的性能，包括长上下文建模和开放式主观评价。

为了进一步提升一致性，InternLM2 采用了一种名为条件在线强化学习从人类反馈（COOL RLHF）的新颖策略，并利用了PPO算法。

该方法解决了两个关键挑战。第一个是偏好冲突，即难以同时满足两个偏好，如有用性和无害性。第二个挑战是奖励操纵，随着模型规模的增大及其策略变得更加强大，这一问题变得更加严重。

COOL RLHF引入了一种条件性奖励机制，通过允许单个奖励模型根据特定的条件提示动态调整其关注点，有效整合了多种偏好。

此外，COOL RLHF 采用了一种多轮在线 RLHF 策略，包含两条不同的路径：一条是快速通道，用于立即、有针对性的改进；另一条是慢速通道，用于对奖励模型进行长期、全面的完善。这种方法使模型能够迅速适应新的人类反馈，同时降低奖励操纵的风险。

3.5 Claude 3

Claude 3 是由 Anthropic 开发的一系列多模态大模型，在基准测试中表现出色。它包括三个具有不同能力和速度的模型：Claude 3 Opus、Claude 3 Sonnet、Claude 3 Haiku。

Claude 3 系列模型在推理、数学和编程方面的基准测试中展现了强大的性能，树立了新的标准。Claude 3 Opus在诸如 GPQA、MMLU 和 MMMU 等评估中取得了最先进的结果。Claude 3 在大多数文本任务中的俳句匹配或超越了克洛德2，而十四行诗和作品的表现则显著更好。

作者使用一种称为宪法人工智能的技术，在强化学习（RL）过程中使Claude 3与人类价值观保持一致。在RL阶段，宪法人工智能遵循类似于RLHF的过程，但它使用的是被称为 RLAIF 的AI反馈，而不是对无害性的人类偏好。具体来说，它将一组规则和原则的语言模型解释浓缩成一个混合人类 / AI偏好模型（PM），其中人类标签用于表示有帮助，AI 标签用于表示无害。之后，他们使用带有此 PM 的RL来监督微调学习模型，从而得到由 RLAIF 训练出的策略。

3.6 Zephyr 141B-A39B

Zephyr 141B-A39B 是 Zephyr 系列最新的语言模型，由Argilla、KAIST和Hugging Face合作开发。该模型是一个拥有共1410亿参数的专家混合体（MoE），其中390亿个参数是活跃的，从 Mixtral-8x22B-v0.1 微调而来。

Zephyr 141B-A39B采用了一种名为赔率比率偏好优化（ORPO）的新型对齐算法。这是一种直接且统一的对齐方法，可防止模型在监督微调过程中采用不希望的生成风格。

值得注意的是，ORPO不需要 SFT 热身阶段、奖励模型或参考模型，使其高度资源高效。该方法通过在标准的SFT负对数似然损失上增加基于优势比的惩罚，使模型能够区分首选和非首选的回应风格。

3.7 DeepSeek-V2

由DeepSeek-AI开发的DeepSeek-V2，是一种强大的专家混合（MoE）语言模型，旨在经济训练和高效推理。它具有创新架构，如多头潜在注意力（MLA）和 DeepSeekMoE。

该模型总共有2360亿个参数，每个 token 激活210亿个参数，支持高达12.8K标记的上下文长度。该模型在包含8.1万亿 token 的高质量、多源语料库上进行预训练。评估显示，DeepSeek-V2及其聊天版本在开源模型中保持了顶尖的性能，尽管仅有210亿个激活参数。

在强化学习（RL）阶段，使用组相对策略优化（GRPO）来优化DeepSeek-V2以降低训练成本。与使用与策略模型大小相似的评价模型的常规RL方法相比，后者增加了训练开支，GRPO则省去了这一步骤，并从同一问题的多个输出计算得分来估计基线。

此外，采用两阶段的RL训练策略：第一阶段专注于推理对齐，第二阶段专注于人类偏好对齐，因为作者发现这些阶段表现出不同的特征。

3.8 ChatGLM

由智谱AI开发的ChatGLM，代表了一系列不断发展的大语言模型。该系列的最新版本是GLM-4，其中包括变体如GLM-4、GLM-4-Air和GLM-4-9B。

这些模型在超过10万亿个token的数据集上进行预训练，主要以中文和英文为主，随后通过SFT和RLHF相结合的方式进行后期训练，以达到高级的对齐质量。

评估结果显示，GLM-4在一般基准测试如MMLU上能与甚至超越GPT-4，并且在以中文对齐为主的评估中，根据Align-Bench的测量显示出优越的性能。

强化学习阶段涉及ChatGLM-RLHF流程，该流程增强了与人类偏好的对齐。这个流程包括三个主要组成部分：收集人类偏好数据、训练奖励模型以及优化策略模型。为了支持大规模训练，ChatGLM-RLHF包括了减少奖励方差以实现稳定训练的方法，利用模型并行与融合梯度下降，并应用正则化约束以防止大语言模型中的灾难性遗忘。

实验结果证实，与ChatGLM的监督微调版本相比，ChatGLM-RLHF在专注于对齐的任务上取得了实质性的改进。

3.9 Nemotron-4 340B

Nemotron-4 340B 是由NVIDIA发布的一系列模型，包括Nemotron-4-340B-Base, Nemotron-4-340B-Instruct和 Nemotron-4-340B-Reward。Nemotron-4-340B-Base模型是在一个高质量数据集的9万亿个token上进行训练的。在开发Nemotron-4-340B-Instruct的对齐过程中，超过98%的数据是由模型合成生成的。

评估显示，这些模型在广泛的评估基准上与开放获取模型竞争性地表现良好。

在偏好微调阶段，DPO和一种新的对齐算法，即奖励感知偏好优化（RPO），都被用来通过多次迭代来改进模型。

RPO解决了DPO中的一个局限性，即不考虑所选和被拒绝的响应之间的质量差异，导致过拟合和有价值的响应被遗忘。

RPO使用来自策略网络的隐式奖励来近似这一差距，使模型能够更好地学习和保留卓越的反馈。

3.10 Llama 3

由Meta开发的 Llama 3 是一组开源的基础语言模型，提供80亿、700亿和4050亿参数的不同规模。它在一个显著更大的语料库上进行训练，该语料库包含约15万亿种多语言 token，与用于Llama 2的 1.8 万亿 token 相比有显著增加。

实证评估表明，Llama 3 在多样化的任务上与领先模型（如GPT-4）的性能相当。

将 Llama 3 与人类反馈对齐的训练后过程涉及六轮迭代改进。每一轮都包括监督微调（SFT），然后是DPO，最终模型是所有轮次输出的平均值。对于每一轮，在新收集的偏好注释数据上训练一个奖励模型（RM），目标是在预训练的检查点上构建的各种能力。在SFT之后，使用从前几轮表现最佳的模型中获得的最新偏好数据批次，应用DPO来进一步优化SFT模型。

为了提高DPO训练的稳定性，实现了两个关键调整：屏蔽DPO损失中的格式化token，并通过NLL（负对数似然）损失引入正则化。

3.11 Qwen2

Qwen2 由阿里巴巴开发，是一系列大语言模型，密集配置中的参数从5亿到720亿不等，以及一个具有570亿个参数的混合专家变体，其中每个token激活140亿个参数。它是在一个高质量、大规模的数据集上进行预训练的，该数据集包含超过7万亿个token，涵盖了广泛的领域和语言。

评估表明，Qwen2优于大多数先前的开源权重模型，包括其前身Qwen1.5，并在一系列基准测试中提供了有竞争力的结果，包括语言理解、生成、多语言能力、编码、数学和推理。

Qwen2 的偏好微调过程包括两个主要阶段：离线学习和在线学习。在离线阶段，Qwen2 使用DPO进行优化，旨在基于预先编译的偏好数据集，最大化对同一提示的两个响应之间的似然差异。在线阶段，模型通过利用奖励模型从当前策略模型生成的多个响应中选择的偏好对，实时持续改进。此外，还采用了在线合并优化器来最小化对齐成本。

3.12 Gemma 2

Gemma 2 由谷歌开发，是 Gemma 家族中最新的轻量级、最先进的开放模型，参数规模从20亿到270亿不等。该模型采用了几项对Transformer架构的成熟修改，包括交错局部-全局注意力和组查询注意力。

实验表明，这些模型在它们所拥有的大小下表现最佳，甚至为比它们大2到3倍的模型提供了有竞争力的替代方案。

与Gemma 1.1类似，在训练后RLHF阶段，作者使用高容量模型作为自动评分器来调整超参数并减轻奖励黑客攻击。然而，与Gemma 1.1不同，他们采用的奖励模型比政策模型大一个数量级。这种奖励模式专门针对会话能力而设计，强调多回合互动。

3.13 Starling-7B

Starling-7B 是由加州大学伯克利分校开发的一个强大的70亿参数聊天模型，专注于与人类对有用性和无害性的偏好保持一致。

该模型通过使用RLAIF在名为Nectar的高质量偏好数据集上对 Openchat-3.5 进行微调，该数据集包含通过提示GPT-4对回应进行排名而生成的380万个成对比较。

因此，该模型在MT-Bench上的得分从7.81提高到8.09，在AlpacaEval上的得分从88.51%增加到91.99%，在Chatbot Arena上的人类评估ELO从1072上升到1087。

在RLAIF过程中对PPO算法进行了几项改进，以提高训练稳定性和鲁棒性。

首先，引入一个恒定的正面奖励来控制长度，以防止过度冗长。这一调整有助于解决早期阶段奖励模型的高度负面奖励可能导致策略模型在仅经过几次梯度更新后变得过于冗长的问题。

其次，对评论家模型进行预训练，以减少由于随机初始化的评论家导致的早期性能下降。

第三，对演员和评论家模型进行全面参数调整，而不是仅调整前四层，以在强化学习阶段最大化性能提升。

3.14 OpenAI o1

OpenAI的o1是一个新开发的大语言模型，针对复杂推理进行优化，利用强化学习进行训练。在生成回应之前，o1会进行深入的内部思考过程，使其能够在各种推理任务中表现卓越。该模型在许多具有挑战性的任务上显著超越了GPT-4o：在Codeforces编程竞赛中排名第89百分位，在AIME数学竞赛中位列前500名参与者，并且在科学基准测试如GPQA中的准确率超过了博士级别。

o1的训练涉及一种大规模强化学习算法，该算法通过详细的思维链（CoT）强调生产性思维，并以高数据效率实现。为了保持模型的未过滤推理能力，不对内部思维过程应用任何政策合规或用户偏好训练，这也提供了一个独特的机会来理解模型的原始思维过程。

这种方法使o1能够在训练过程中完善策略、纠正错误并解构复杂问题。值得注意的是，随着训练计算量的增加以及测试时计算量的扩展，模型的表现有所提升。

04 总结

本文系统性回顾了强化学习增强大语言模型的研究现状，涵盖了强化学习的基础知识、主流的强化学习增强大语言模型、基于人类反馈（RLHF）和人工智能反馈（RLAIF）的强化学习技术，以及直接偏好优化（DPO）方法。旨在帮助研究人员了解该领域的挑战与进展，以推动强化学习增强大语言模型技术的进一步发展。

#阶跃星辰开源两款国产多模态大模型

接力DeepSeek

两款 Step 系列开源多模态大模型，性能位列开源多模态全行业第一。

本周二，国内 AI 创业公司阶跃星辰和吉利汽车集团宣布联合开源两款多模态大模型。

这两款大模型分别是视频生成模型 Step-Video-T2V 和行业内首款产品级开源语音交互模型 Step-Audio。根据官方的测评报告，目前 Step-Video-T2V 是全球范围内参数量最大、性能最好的开源视频生成模型。

Step-Video-T2V 模型部署及技术报告链接：

GitHub：https://github.com/stepfun-ai/Step-Video-T2V

Hugging Face：https://huggingface.co/stepfun-ai/stepvideo-t2v

Modelscope：https://modelscope.cn/models/stepfun-ai/stepvideo-t2v

技术报告：https://arxiv.org/abs/2502.10248

和此前引爆全球科技界的 DeepSeek R1 一样，阶跃星辰的 Step-Video-T2V 视频生成模型，采用最为宽松的 MIT 许可协议，支持免费商用、任意修改和衍生开发，为开源社区带来了新的技术思路启发。这次发布也意味着阶跃星辰成为大模型开源世界的又一股中国力量。

与此同时，两款大模型均已可以在「跃问」App 上进行体验，视频模型还可以在桌面端使用：https://yuewen.cn/videos

阶跃星辰的大模型在 AI 社区引发了关注。Hugging Face 工程师、前谷歌 TensorFlow 团队成员 Tiezhen Wang 表示，阶跃星辰简直就是下个 DeepSeek：

Hugging Face 官推也转贴了他的评论。

GPT-J 作者 Aran Komatsuzaki 贴出了用新模型生成的视频。

更多网友对国内 AI 公司对开源社区的贡献表示了欢迎。

最强开源视频模型

会运镜、生成形象好、还擅长运动

初步体验一下，可以感觉到 Step-Video-T2V 显著提升了视频生成 AI 能力的上限。我们看看目前人们用跃问视频生成的效果。

首先要关注的是在电影、视频短片中最显制作者「功力」的镜头调度能力：

，时长00:10

低角度旋转镜头围绕着一个鼓手和他的架子鼓。鼓手穿着深色T恤和浅色裤子，戴着帽子，手臂上有纹身。

，时长00:08

在晴朗的海滩上，一个男孩正在建造沙堡。镜头以俯视角度拍摄，展现他专注的神情和灵巧的双手。

看起来 Step-Video-T2V 具备强大的运镜能力，它能够实现推、拉、摇、移、旋转、跟随等多种镜头运动方式，还能支持不同景别之间的切换。

其次是生成式 AI 的老大难问题 —— 人物运动的姿态。

，时长00:08

一个精灵，在森林中起舞，身旁是萤火虫环绕，月光透过树叶，慢速展现精灵的轻盈，画面梦幻唯美。

，时长00:08

跳水。

很多例子显示，Step-Video-T2V 擅长复杂运动生成，无论是高雅优美的芭蕾舞、对抗激烈的空手道、紧张刺激的羽毛球，还是高速翻转的跳水，新模型都展现出了对复杂运动场景的优秀把控能力。

我们也很关心 AI 生成人物形象和表情的合理性，在这方面 Step-Video-T2V 也做得不错。

，时长00:08

人物模糊化失焦拍摄，一个女孩的侧脸，披肩黑色长卷发，戴着红色贝雷帽，穿着蓝色毛衣，正在笔记本电脑前打字。

从众多案例中我们可以发现，Step-Video-T2V 生成的人物形象相比此前的多模态大模型更加逼真、生动，细节更丰富，表情也更自然。AI 生成的人物五官、发型、皮肤纹理都更加细腻。

从生成效果来看，Step-Video-T2V 在复杂运动、人物美感、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大能力，并具有突出的语义理解和指令遵循能力，可以帮助人们更精准地呈现创意。

惊艳的视频生成效果背后，是阶跃星辰自研且具有创新性的基础多模态大模型。

Step-Video-T2V 在开源的同时也第一时间放出了技术报告，可知该模型的参数量达到 300 亿，可以单次直接生成 204 帧、540P 分辨率的高质量视频。这意味着大模型能够确保生成的视频内容具有极高的信息密度和一致性。

Step-Video-T2V 的架构概览。

在模型细节上，为了实现更加逼真的视频生成，研究人员设计了深度压缩变分自编码器 Video-VAE，它实现了 16×16 的空间压缩比。与绝大多数 8×8×4 压缩比的 VAE 模型相比，Video-VAE 能够在相同视频帧数下额外压缩 8 倍，从而实现训练和生成效率提升 64 倍的效果。

Video-VAE 架构。

与此同时，阶跃使用流匹配训练了一个具有 3D 全注意力机制的 DiT，用于将输入噪声去噪成潜在帧，还应用了基于视频的 DPO 方法以减少伪影并提高生成视频的视觉质量。

双语文本编码器和具有 3D Attention 的 DiT 的模型架构。

为了对开源视频生成模型的性能进行全面评测，阶跃星辰还开源了针对文生视频质量评测的基准数据集 Step-Video-T2V-Eval。该测试集包含 128 条源于真实用户的中文评测问题，旨在评估生成视频在运动、风景、动物、组合概念、超现实、人物、3D 动画、电影摄影等 11 个内容类别上质量。

Step-Video-T2V-Eval 评测结果。

评测结果显示，Step-Video-T2V 的模型性能在指令遵循、运动平滑性、物理合理性、美感度等方面全面超越了此前行业内性能最好的开源模型。

产品级语音交互模型

高情商还懂方言

在语音交互一侧，阶跃星辰开源的 Step-Audio，能够根据不同场景生成情绪、方言、语种、歌声和个性化风格的表达，让 AI 能和用户自然地进行高质量对话。

这里有一些实测例子。在 Step-Audio 加持下，我们发现现在的 AI 还懂得了很多人情世故：

，时长00:56

Step-Audio 的反应速度很快，生成的语音也非常自然，还具备不错的情商。据悉，Step-Audio 也能实现高质量音色复刻和角色扮演，可满足影视娱乐、社交、游戏等行业场景的应用。

在 LlaMA Question、Web Questions 等五大主流公开测试集上，Step-Audio 的性能均超过行业内同类型开源模型，位列第一。另外，Step-Audio 在汉语水平考试六级 HSK-6 评测中的表现尤为突出，成为了最懂中国话的开源语音交互大模型。

此外，根据阶跃自建并开源的多维度评估体系 StepEval-Audio-360 基准测试显示，Step-Audio 在逻辑推理、创作能力、指令控制、语言能力、角色扮演、文字游戏、情感价值等维度均取得了最佳成绩。

具体来说，Step-Audio 的技术探索为多模态开源社区带来了五个方面的贡献：

多模态理解生成一体化：单模型完成语音识别、语义理解、对话、语音生成等功能，并开源了千亿参数多模态模型 Step-Audio-Chat 版本；
高效合成数据链路：Step-Audio 突破传统 TTS 对人工采集数据的依赖，能生成高质量的合成音频数据，实现合成数据生成与模型训练的循环迭代，并同步开源了首个基于大规模合成数据训练，支持 RAP 和哼唱的指令加强版语音合成模型 Step-Audio-TTS-3B；
精细语音控制：支持多种情绪（如生气、高兴、悲伤）、方言（如粤语、四川话）和唱歌（包括 RAP、干声哼唱）的精准调控；
扩展工具调用：通过 ToolCall 机制，Step-Audio 能够集成搜索引擎、知识库等外部工具，进一步提升其在 Agents 和复杂任务上的表现；
高情商对话与角色扮演：基于情感增强与角色扮演强化的 RLHF 流程，提供了人性化回应并支持定制化角色设定。
GitHub 链接：https://github.com/stepfun-ai/Step-Audio
Hugging Face：https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b
Modelscope：https://modelscope.cn/collections/Step-Audio-a47b227413534a
技术报告：https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf

「多模态卷王」阶跃星辰

正成为新锐开源力量

ChatGPT 发布仅过去两年，生成式 AI 领域已经历了翻天覆地的变化。我们见证了巅峰时期 300 家大模型的同台竞技，转变成「大模型 n 小龙」在不同赛道上的努力探索。自去年底，DeepSeek 的爆发又仿佛一阵强心剂，激起了业界新一轮更加激烈的竞争。

新的局面下，GPU 数量和数据体量优势不再是创业公司难以逾越的壁垒。与此同时，一些坚持技术路线的公司正在逐渐显现优势。

与很多逐渐转向应用侧的大模型公司不同，阶跃一直专注于技术驱动的发展思路，不断投入资源迭代基础模型。凭借技术的深厚积累，阶跃星辰一直在多模态领域领先业界。

从产品布局来看，阶跃的大模型涵盖语音识别、语音复刻及生成模型、视频理解模型、图像生成模型、视频生成模型、多模态理解等各种类别，而且研发速度极快，自成立以来已先后发布了 11 款。

从成绩上看，阶跃的 Step 系列多模态模型曾多次在国内外权威大模型评测榜单上位列「中国大模型第一」。不论开源社区还是合作伙伴，都已对阶跃的大模型有了充分的认可。

在 OpenCompass 多模态模型评测实时榜单上，Step-1o 大模型名列业内第一。

真正以构建 AGI 为最终目标的团队，必然会选择坚持预训练和基座大模型的研发。阶跃星辰曾披露过自己的 AGI 路线图，「单模态 —— 多模态 —— 多模理解和⽣成的统⼀ —— 世界模型 ——AGI」。

这样的思路在今天发布的 Step-Video-T2V 技术报告中有了体现。阶跃星辰定义了构建视频基础模型的两个级别：

Level 1 是翻译视频的基础模型。此类模型可充当跨模态翻译系统，能够从文本、视觉或多模态上下文生成视频。目前基于扩散的文本转视频模型如 Sora、Veo、Kling、Hailuo 和 Step-Video 系列都属于 Level 1。
Level 2 则是「可预测视频基础模型」。此级别的模型充当预测系统，类似于大语言模型（LLM），可以根据文本、视觉或多模态上下文预测未来事件，并处理更高级的任务，例如使用多模态数据进行推理或模拟真实世界场景。

技术报告中，工程师们介绍了开发 Level 2 级视频基础模型需要解决的关键问题。如果我们能够对视频中潜在的因果关系进行建模，就能够生成更加复杂的动作序列，以及真正遵守物理定律的视频，让多模态拥有像如今 LLM 中涌现的「推理」。

这样的理念与李飞飞和她在 World Labs 中的工作不谋而合。可见在多模态大模型领域，新的方向已逐渐清晰。

可以预见，DeepSeek 爆发之后，更多的国内领先开源技术将会兴起，成为 AI 领域中不可忽视的力量。

#WorldSense

小红书&上交多模态大模型新基准，Gemini 1.5 Pro准确率仅48%

多模态大模型理解真实世界的水平到底如何？

有新基准来衡量了。

就在最近，小红书和上海交通大学联合提出WorldSense，一个全新的基准测试，用来评估多模态大模型（MLLMs）的多模态真实场景理解能力。

论文链接：https://arxiv.org/abs/2502.04326
项目主页：https://jaaackhongggg.github.io/WorldSense/

基于WorldSense，团队对各种先进的MLLMs进行了广泛评估，结果发现：

开源的视频-音频模型在该基准上的准确率仅约25%，几乎等同于随机猜测；

即使是表现最好的专有模型 Gemini 1.5 Pro，准确率也只有48%，远不能满足可靠的真实世界应用需求。

WorldSense介绍

想象一下，当你开车时，不仅要依靠眼睛观察道路标志、交通信号灯和障碍物，还要用耳朵听其他车辆的喇叭声、后方传来的警笛声，甚至通过手对方向盘的触感、车辆行驶时的震动来做出实时决策，确保安全驾驶。

这就是人类在真实场景中自然的多模态信息整合能力。

而现在的多模态大模型，在处理这些复杂的真实世界场景时，表现究竟如何呢？

WorldSense的诞生，正是为了填补现有评估体系的关键空白。

与以往那些存在诸多局限性的基准测试不同，它具备三大核心亮点，为多模态大模型的评估开辟了新的道路。

全模态协同，深度融合感知

在WorldSense的设计中，音频和视频紧密耦合，每个问题都需要模型充分挖掘音频和视频中的线索，将两者信息有机结合，才能找到正确答案。

比如，在上图第一个例子中，有个人手里拿着水果。如果仅依靠视觉信息，我们可能只能看到他拿着东西这个动作，但很难确定他具体在做什么，是展示水果的颜色、大小，还是在进行其他操作；而仅凭借音频，我们甚至都难以判断他手中拿的是什么水果。

只有将视觉与音频信息协同起来，模型才能准确理解场景，给出正确答案。这种设计严格考验模型同时处理多种感官输入、进行精准理解的能力。

最新的开源视频音频多模态大模型仅仅获得了25%左右的准确率，而表现最好的Gemini 1.5 Pro也只有48%的准确率，并且在缺失一个模态的情况下性能下降约15%左右。

这进一步说明了全模态协同在真实世界感知的重要性和WorldSense中多模态信息的强耦合，也揭示了现有多模态大模型的局限性。

视频与任务多样性，全方位场景覆盖

据介绍，WorldSense涵盖了1662个视听同步视频，系统地分为8个主要领域和67个细粒度子类别，覆盖了丰富的真实世界场景。

同时，它还包含3172个多选问答对，横跨26种不同的认知任务，从基础的物体识别、声音辨别，到复杂的因果推理、抽象概念理解，全方位评估MLLMs的多模态理解能力。

高质量标注，可靠性的基石

为了保证评估的可靠性，所有的问答对都是由80位专家手动标注。

而且，标注过程并非一蹴而就，而是经过多轮严格的人工审核，从语言表达的清晰度、逻辑的连贯性，到答案的准确性和唯一性，都进行了反复考量。

不仅如此，还借助自动MLLM验证技术，进一步确保标注质量。

经过这样双重保障的标注过程，确保问题和答案的准确性和高质量。

实验

如前所述，研究团队基于WorldSense对各种先进的MLLMs进行了广泛评估，结果令人深思。

开源的视频 - 音频模型在该基准上的准确率仅约25%，几乎等同于随机猜测；即使是表现最好的专有模型Gemini 1.5 Pro，准确率也只有48%，远不能满足可靠的真实世界应用需求。

这表明当前的模型在理解真实世界场景方面还面临巨大挑战，同时也凸显了全模态协同理解的重要性。

为进一步深入剖析这些模型的性能短板，研究人员开展了细粒度分析，从不同音频类型和任务类别两个关键维度入手，挖掘模型在实际应用中的具体问题。这一分析为我们深入洞察现有模型的局限性提供了关键视角。

最终结果如下：

音频相关任务表现欠佳：模型在音频识别、计数等任务上表现差，显著落后于其他任务类型。这是由于音频信号复杂，现有模型架构和训练方法难以有效解析利用其中的频率、音色等信息。
情感相关任务挑战巨大：这类任务需整合面部表情、语气语调、语音内容等多模态线索，模型表现较差，暗示其训练数据缺乏情感样本，且架构算法难以融合多模态信息进行判断。
不同音频类型下表现各异：以Gemini 1.5 Pro为例，其处理事件相关问题的准确率低于语音或音乐任务，其他模型也存在类似情况。这凸显现有模型缺乏对各种音频类型通用、稳定的理解能力。鉴于上述评估中揭示的多模态大模型（MLLMs）在性能上的巨大差距，研究团队深入探究了提升MLLMs性能的潜在方法，具体涵盖视觉信息、音频信息以及视频帧等方面的研究。

视觉信息的影响

研究人员通过设置不同的输入配置，探究视觉信息对模型性能的影响，这些配置包括仅音频输入、音频结合视频字幕输入以及音频结合视频帧输入。

从实验结果来看，视觉信息通常能提升模型性能。以Gemini 1.5 Pro为例，其仅音频输入时准确率为34.6%，而添加视频帧输入后，准确率提升至48.0%。

然而，不同模型受视觉信息的影响存在差异。像UnifiedIO2系列模型，在结合视频字幕输入时，性能提升效果并不稳定，甚至出现了性能下降的情况。

这一现象表明，一方面，视觉信息若能被模型恰当整合，对增强多模态理解至关重要；另一方面，当前模型在有效利用视觉信息方面的能力仍然有限，可能是因为模型在处理视觉特征与其他模态信息融合时存在困难，或者是在提取视觉关键信息上还不够高效。

音频信息的作用

在音频信息的研究上，团队设置了三种输入配置进行实验，分别是仅视频输入、视频结合字幕输入以及视频结合原始音频输入。

实验结果呈现出有趣的规律。

对于Gemini 1.5 Pro和OneLLM等模型，添加字幕能提高准确率，而添加原始音频后，准确率提升更为显著，这充分说明字幕和原始音频中的声学特征（如语气、情感、环境声音等）都为多模态理解提供了有价值的信息，且原始音频包含了字幕无法捕捉的重要线索，对多模态理解意义重大。

但不同模型对音频信息的处理能力也有所不同。UnifiedIO2 在整合字幕或音频时，性能出现了下降，尤其是字幕输入导致准确率明显降低，这反映出该模型在多模态处理方面存在困难，可能无法有效融合音频和视觉等多模态信息。

而Video - LLaMA2虽然在添加两种模态信息时性能都有所提升，但对字幕的依赖更强，在处理原始音频时表现相对较弱，这表明它更擅长处理文本形式的音频信息，而在解析复杂声学信息上能力不足。

此外，研究人员还对仅视频输入的 MLLMs 提供转录字幕进行评估，发现几乎所有模型在添加字幕后性能都显著提升，不过在音乐相关问题上，由于字幕无法有效捕捉旋律、节奏和和声等固有声学特征，性能提升并不明显。

这进一步证明了原始音频在多模态理解中的独特价值，同时也表明当前模型在整合声学和文本信息以实现全面场景理解方面存在较大的提升空间。

视频帧采样密度的效果

研究团队还研究了视频帧的时间采样密度对模型性能的影响，通过改变仅视频输入的 MLLMs 的输入帧数来进行实验。

结果显示，大多数模型在增加帧密度后，性能有显著提升。

这是因为更高的帧密度能够让模型更好地捕捉视频中细粒度的时间动态变化和微妙的视觉改变，从而提升对视频内容的理解。

例如，在一些包含快速动作或微小细节变化的视频中，增加帧密度能让模型获取更多关键信息，进而做出更准确的判断。但也有例外，如 LLaMA - 3.2 在增加帧密度时，性能并未提升。

这可能与该模型自身的架构特点或训练方式有关，导致它无法有效利用增加的帧信息，这也为后续研究如何优化模型以更好地利用视频帧信息提供了思考方向。

小结一下，通过对视觉信息、音频信息以及视频帧采样密度的研究，为提升MLLMs在真实世界场景中的理解能力提供了重要的参考方向。

未来的研究可以基于这些发现，进一步优化模型架构和训练方法，以增强模型对多模态信息的处理能力，缩小与人类真实世界理解能力之间的差距。

#Video-XL-Pro

端侧3B模型长视频理解新sota！性能赶超7B巨头！

长视频理解是多模态大模型的核心能力之一，也是迈向通用人工智能（AGI）的关键一步。然而，现有的多模态大模型难以大规模训练超长视频，并且在处理长视频时，仍然面临性能差和效率低的双重挑战。

论文链接：https://arxiv.org/abs/2503.18478
代码链接：https://github.com/VectorSpaceLab/Video-XL/tree/main/Video-XL-Pro
模型链接：https://huggingface.co/MINT-SJTU/Video-XL-Pro-3B
训练数据链接：https://huggingface.co/datasets/MINT-SJTU/Video-XL-Pro-Training

对此，上海交通大学、北京智源研究院、特伦托大学的联合研究团队推出了小时级的超长视频理解大模型Video-XL-Pro，创新提出“重构式令牌压缩”技术，实现近一万帧视频的单卡处理，大海捞针准确率超98%！

并且使用较少的训练数据，在多个基准评测上超越了之前Meta发布的7B模型Apollo-7B，以及同尺寸的知名开源模型Qwen2.5-VL-3B，InternVL2.5-4B等，项目代码，模型，训练数据均已开源！

模型结构

Video-XL-Pro的核心在于其提出的重构性令牌压缩技术（ReCoT），该技术通过自监督学习生成全面且紧凑的视频令牌，显著提升了视频理解的效率和质量。ReCoT包含两个关键组件：动态令牌合成器（DTS）和语义引导掩码（SGM）。

DTS通过轻量级的时空注意力块对令牌进行压缩，有效捕捉视频中的动态运动；而SGM则通过自适应掩码策略，减少冗余视觉令牌，从而优化重构学习过程。这些创新设计使得模型在仅需3B参数的情况下，性能超越了许多7B参数的模型。

此外，为了增强模型对超长视频理解能力，模型还引入了查询选择器，使得在输入上下文超过限制时模型能够选择性关注和查询有关的片段。

为了进一步提升训练效率，研究团队还提出了视频数据集剪枝策略。这些方法通过筛选高质量视频数据，显著降低了计算成本，同时保障模型的性能。

评测基准

Video-XL-Pro选用多个主流视频理解评测基准，对模型进行了全面的评测，对于长视频理解任务，评测了LongVideoBench、MLVU、Video-MME，TempCompass和VNbench。

其中MLVU，VideoMME，LongVideoBench集中在评测模型的长视频理解能力；

VNbench则是兼顾长视频与短视频，TempCompass则是评测模型在视频中的时间理解能力。

如表1所示，Video-XL-Pro在多个主流的长视频评测基准上展现了卓越性能。

在MLVU的Dev，Test，以及TempCompass上，VIdeo-XL-Pro均斩获了第一名，不光超越同参数量的知名开源模型qwen2.5-VL-3B和internVL2.5-4B等，也超越了一众7B模型，包括Meta发布的7B模型Apollo-7B等。

在VideoMME，LongVideoBench，Video-XL-Pro也超越了绝大部分同参数量模型，并达到与7B模型相当的水准；

最后在VNbench上，VIdeo-XL-Pro也取得有竞争力的结果，说明模型在增强长视频理解能力的同时，也能兼顾短视频能力。

值得注意的是，VIdeo-XL-Pro只使用了相对较少的SFT数据（1M），低于Apollo的3.2M，远低于Qwen2.5-VL，InternVL2.5等知名开源模型，进一步说明了方法的有效性。

Video-XL-Pro还进行了视频「大海捞针」测试来评估其处理超长上下文的能力。得益于ReCot模块和查询选择器的设计，使得模型可以输入极长的上下文序列，在相同硬件条件下，模型可以以8192帧为输入，达到了近99%的准确率。

时间理解

为了更全面的评估模型性能，我们还选用了经典时间评测基准Charades-STA和最新的长视频时间评测基准V-STaR。

V-STaR注重在极长视频中找出与问题相关的片段，精准回答片段时间范围，现有开源模型在V-STaR中很难取得很好的成绩，即便是Qwen2.5-VL-7B，mIoU得分也仅为11.48。

Video-XL-Pro-3B在最新的V-STaR长视频时间基准测试斩获25.07的mIoU得分，在IoU>0.7时仍能达到15.58的准确率，远上超越一众知名开源模型，包括InternVL2.5-8B和Qwen2.5-VL-7B，并超越上一代冠军Video-LLaMA3，展现了卓越的长视频时间理解能力，并且在Charades-STA上也有着不俗的表现。

总结

该工作提出了Video-XL-Pro模型，利用自监督学习压缩视觉标记，使用相对少量数据下训练的3B模型就能获得超越大多数7B模型的性能。Video-XL-Pro在多个主流长视频理解基准评测上表现优异。模型有望在多个长视频理解的应用场景中展现出广泛的应用价值，成为得力的长视频理解助手。目前，模型、代码、训练数据均已开源，以促进长视频理解社区的合作和发展。