第三十一周周报

学习目标:

Refining Generative Process with Discriminator Guidance in Score-based Diffusion Models (DG)

学习时间:

4.1-1.7

学习产出:

Abstract

  • 介绍了一种利用辅助判别器进行分数调整的生成式SDE。目标是通过估计预训练得分估计值与真实数据得分之间的差距,改进预训练扩散模型的原始生成过程。
  • 方法:通过训练一个鉴别器来完成,它可以对扩散的真实数据和扩散的样本数据进行分类。

1、Introduction

  • 介绍了一种提高给定预训练评分网络样本质量的正交方法,即直接量化预训练分数估计与真实数据分数之间的差距,并通过辅助判别器网络估计这一差距。
  • 通过将估计的差距与预训练的分数估计相加来构建调整后的分数,鉴别器的饱和速度非常快(在10个epoch内),因此可以通过廉价的预算实现如此显著的性能提升。
  • 贡献:
    • 提出了一种新的生成过程——判别器引导,对给定的预训练分数模型进行调整。
    • 表明鉴别器引导样本比非引导样本更接近真实世界的数据

2、Preliminary and Related Works

Score-Based Generative Modeling through Stochastic Differential Equations

在这里插入图片描述

1、正向SDE:

在这里插入图片描述

系数只与时间t和当前时刻取值x有关

在这里插入图片描述
在这里插入图片描述
DDPM的公式:
在这里插入图片描述
将DDPM写成类似SDE的形式
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2、逆向SDE

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
将式20写成ODE形式
在这里插入图片描述

3、得分匹配

在这里插入图片描述

3、Refining Generative Process with Discriminator Guidance

3.1 修正预训练分数估计

分数训练后,根据时间步逆推生成过程(逆向SDE过程):
在这里插入图片描述
Sθ代表收敛后的评分网络,如果θ偏离全局最优θ【θ≠θ 】则需要使用修正项进行调整。
根据论文中证明本论文逆向过程与逆向SDE一致的定理1可进一步细化式(4):
在这里插入图片描述

3.2. Discriminator Guidance

cθ通常难以处理,因为密度比ptr / ptθ∞是不可接近的。因此,通过训练一个带有附加扩散时间t参数的鉴别器来估计这个密度比。鉴别器训练使用BCE
在这里插入图片描述
λ为时间权值。鉴别器将扩散的真实数据xt ~ ptr分类为真实数据,将扩散的样本数据xt ~ pθ分类为虚假数据。
则修正项可表示为:
在这里插入图片描述
使用BCE损失的最小网络表示:
在这里插入图片描述
那么DG模型的逆向为:
在这里插入图片描述

鉴别器训练过程:
在这里插入图片描述

鉴别器快速收敛提高了样本质量
在这里插入图片描述

3.3. 与分类器引导联系

将鉴别器与预训练的分类器联系起来。
分类器引导的生成过程:在这里插入图片描述
在这里插入图片描述
上述公式等价于从(xt,y)的联合分布中采样,因为:
在这里插入图片描述
p(y|xt,t)是在t处的分类器。分类器引导通过评估样本是否被类别标签y正确分类来提供关于样本路径的辅助信息,而鉴别器引导是标签不可知的,它只给出样本是否真实的信息。由于从联合分布p(xt,y)中采样只有在分数准确时才有效,因此鉴别器引导通过调整不准确的分数估计与分类器引导产生协同作用。在这里插入图片描述
WtDG和WtCG是随时间变化的权重。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值