简单记录学习~
一、传统 ITC Loss 的局限性
-
One-Hot Label 的缺陷
- 传统对比学习依赖严格对齐的图文对,通过交叉熵损失(如 softmax 归一化的相似度矩阵)强制模型将匹配的图文对相似度拉高,非匹配对相似度压低11。
- 但 one-hot 标签仅允许当前批次中的正样本参与学习,导致负样本覆盖范围有限,且难以处理噪声数据。
-
负样本不足问题
- 若仅依赖当前批次的负样本,模型容易过拟合到局部特征,无法充分挖掘跨模态语义的多样性关联。
二、动量编码器与队列机制的协同优化
-
动量编码器的稳定特征生成
- 动量模型(Momentum Encoder):参数通过指数移动平均(EMA)更新,滞后于主模型(当前编码器),其输出的 CLS 特征更稳定且噪声更少。
- 队列维护(Queue):动态存储历史批次中动量模型生成的图像和文本特征,扩展负样本数量(如数千至数万级)。
-
双重相似度计算
- 主模型计算:当前批次图像和文本的 CLS 特征与队列中的历史特征计算相似度矩阵,用于传统的交叉熵损失。
- 动量模型计算:当前批次经过动量编码器处理后,与队列特征再次计算相似度,生成更稳定的伪目标分布。
- 优化目标:通过 KL 散度损失迫使主模型的相似度分布逼近动量模型的分布,提升鲁棒性。
三、机制的核心优势
-
扩展负样本范围
- 队列机制引入大量历史特征作为负样本,避免模型仅依赖当前批次的局部数据,增强跨模态语义的泛化能力。
-
噪声数据鲁棒性
- 动量模型生成的伪目标分布具有滞后性和平滑性,能过滤噪声数据中的错误对齐信号,提供更可靠的监督信息。
-
语义关联的多样性
- 模型通过动量模型发现潜在的正样本关联(如相似但非严格匹配的图文对),促使文本能描述更丰富的图像特征,图像也能对应更多样的文本表达。
四、与传统 ITC Loss 的对比
维度 | 传统 ITC Loss | 结合伪目标的 ITC Loss |
---|---|---|
负样本来源 | 仅当前批次 | 当前批次 + 动态维护的历史队列 |
噪声鲁棒性 | 低(直接依赖原始标签) | 高(动量模型过滤噪声) |
语义多样性 | 有限(依赖人工对齐) | 增强(挖掘潜在跨模态关联) |
监督信号稳定性 | 不稳定(受当前参数波动影响) | 稳定(动量模型提供滞后性特征) |