ALBEF的动量蒸馏（Momentum distillation）

JiaJZhong

于 2025-03-06 17:05:55 发布

阅读量459

点赞数 6

文章标签：人工智能机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_52056073/article/details/146075093

版权

简单记录学习~

一、‌传统 ITC Loss 的局限性‌

‌One-Hot Label 的缺陷‌
- 传统对比学习依赖严格对齐的图文对，通过交叉熵损失（如 softmax 归一化的相似度矩阵）强制模型将匹配的图文对相似度拉高，非匹配对相似度压低‌11。
- 但 one-hot 标签仅允许当前批次中的正样本参与学习，导致负样本覆盖范围有限，且难以处理噪声数据。
‌负样本不足问题‌
- 若仅依赖当前批次的负样本，模型容易过拟合到局部特征，无法充分挖掘跨模态语义的多样性关联‌。

二、‌动量编码器与队列机制的协同优化‌

‌动量编码器的稳定特征生成‌
- ‌动量模型（Momentum Encoder）‌：参数通过指数移动平均（EMA）更新，滞后于主模型（当前编码器），其输出的 CLS 特征更稳定且噪声更少‌。
- ‌队列维护（Queue）‌：动态存储历史批次中动量模型生成的图像和文本特征，扩展负样本数量（如数千至数万级）‌。
‌双重相似度计算‌
- ‌主模型计算‌：当前批次图像和文本的 CLS 特征与队列中的历史特征计算相似度矩阵，用于传统的交叉熵损失。
- ‌动量模型计算‌：当前批次经过动量编码器处理后，与队列特征再次计算相似度，生成更稳定的伪目标分布。
- ‌优化目标‌：通过 KL 散度损失迫使主模型的相似度分布逼近动量模型的分布，提升鲁棒性‌。

三、‌机制的核心优势‌

‌扩展负样本范围‌
- 队列机制引入大量历史特征作为负样本，避免模型仅依赖当前批次的局部数据，增强跨模态语义的泛化能力‌。
‌噪声数据鲁棒性‌
- 动量模型生成的伪目标分布具有滞后性和平滑性，能过滤噪声数据中的错误对齐信号，提供更可靠的监督信息‌。
‌语义关联的多样性‌
- 模型通过动量模型发现潜在的正样本关联（如相似但非严格匹配的图文对），促使文本能描述更丰富的图像特征，图像也能对应更多样的文本表达‌。

四、‌与传统 ITC Loss 的对比‌

‌维度‌	‌传统 ITC Loss‌	‌结合伪目标的 ITC Loss‌
‌负样本来源‌	仅当前批次	当前批次 + 动态维护的历史队列
‌噪声鲁棒性‌	低（直接依赖原始标签）	高（动量模型过滤噪声）
‌语义多样性‌	有限（依赖人工对齐）	增强（挖掘潜在跨模态关联）
‌监督信号稳定性‌	不稳定（受当前参数波动影响）	稳定（动量模型提供滞后性特征）

通过‌动量编码器+队列机制‌，模型不仅扩展了负样本范围，还利用滞后稳定的伪目标分布捕捉潜在的正样本关联，从而弥补传统 ITC Loss 的缺陷，实现更鲁棒、更丰富的跨模态对齐‌。这一机制是多模态预训练（如 ALBEF、BLIP）的核心创新之一。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。