【NeurIPS 2023】Label-Retrieval-Augmented Diffusion Models for Learning from Noisy Labels

最新推荐文章于 2024-06-09 09:40:32 发布

..yi..

最新推荐文章于 2024-06-09 09:40:32 发布

阅读量905

点赞数 19

文章标签：计算机视觉

本文链接：https://blog.csdn.net/weixin_45948379/article/details/135682774

版权

在这里插入图片描述

论文：https://arxiv.org/pdf/2305.19518v2.pdf

github：https://github.com/puar-playground/LRA-diffusion

主要内容

目标任务：通过鲁棒学习方法在使用噪声标签进行分类任务
主要贡献：1.将从噪声标签中的学习过程描述为对条件标签生成的随机过程的建模，并提出采用强大的扩散模型来学习条件标签分布 2.将邻居一致性原则引入到模型中，设计了一个创新的标签-检索-增强扩散模型，以有效地从有噪声的标签数据中学习 3.通过结合来自大型预训练模型(如CLIP)的辅助条件信息进一步改进了我们的模型 4.在各种现实世界的噪声标签基准测试中实现了最新的最先进(SOTA)
具体方法：通过扩散模型模拟噪声标签生成的过程，应用两个预训练编码器和检索标签所提供的信息进行逐步的标签解噪。

扩散模型和CARD模型

扩散模型是受到热力学中的一个分支，它的思想来源是非平衡热力学（Non-equilibrium thermodynamics）。扩散模型的算法理论基础是通过变分推断（Variational Inference）训练参数化的马尔可夫链（Markov Chain）扩散模型中最重要的思想根基是马尔可夫链，它的一个关键性质是平稳性。即如果一个概率随时间变化，那么再马尔可夫链的作用下，它会趋向于某种平稳分布，时间越长，分布越平稳。~~具体数学推导笔者还没看~~ ，附上一个扩散模型综述：https://zhuanlan.zhihu.com/p/640138441

扩散模型最初是为生成建模而设计的。最近，它已扩展到分类和回归问题。CARD模型（the Classification and Regression Diffusion Models）是目前最先进的分类回归的扩散模型，同时也是论文的基线模型。CARD伪代码：

card

具体方法

整体模型

模型由条件信息，扩散模型，标签检索三个模块组成。
条件信息模块采用两个预训练的网络，分别表示为fq和fp编码器，对条件信息进行编码，以促进生成过程。fq编码器作为yT的均值估计器，为给定图像提供初始标签猜测。这个编码器可以是一个在噪声标签上训练的标准分类器。另一方面，fp编码器作为高维特征提取器操作，协助指导反向过程。yt和fp(x)在被处理之前被连接在一起。
扩散模型部分采用CARD的算法，one-hot标签y0由标签检索模块给定，扩散模型利用信息模块给出的信息，通过正向扩散过程对模型进行训练，通过反向扩散过程对噪声标签进行纠正。
标签检索模块通过编码器fp将数据映射到嵌入空间中，从训练集中k个最近邻{y(1)，···，y(k)}的标签中检索标签y '。然后训练扩散模型来学习邻域内标签的条件分布p(y′|x)。
在这里插入图片描述

基于广义DDIM的高效推理

分类扩散模型的迭代生成特性使其推理效率无法与传统分类器相比。为了提高推理效率，作者提出结合有效的采样方法，即去噪扩散隐式模型(DDIM)来加速标签的扩散过程。然而，均值估计器fq的使用使得DDIM与文章的设置不兼容，因为文章的生成过程始于非零均值高斯分布N (fq(x)， I)。因此，作者将DDIM方法调整为更一般的形式，以适合框架。与DDIM类似，抽样过程保持与原始q(yt|y0, fq)封闭抽样过程相同的边际分布。使用DDIM，训练后的模型可以用更少的步骤生成标签向量，训练伪代码：
在这里插入图片描述

灵活的条件与预训练编码器

最初的CARD模型为fp和fq编码器使用单一模型。然而，这限制了它们的表示能力，因为fq(x)的维度通常相对较小，即等于类的数量。为了减轻这种情况并提高模型性能，作者放弃了fp = fq的假设，从而可以使用更强大的预训练编码器(例如CLIP图像编码器)对fp进行任意维度的训练。在本文中，作者使用在训练图像上训练的SimCLR模型(没有监督信息)和预训练的CLIP模型。