从完美KL距离推导VAE

本文从逻辑角度推导VAE,详细阐述了初始设定、VAE流程和核心推导过程,包括理想情况下的损失函数、理想假设(Assumption1和Assumption2)以及如何通过采样优化损失函数。文章揭示了通过假设编码h服从正态分布来简化计算,并介绍了优化方法和损失函数的计算,最后总结了VAE的逻辑结构。
摘要由CSDN通过智能技术生成

VAE的纯逻辑推导

一、初始设定

  • 为了更具体的逻辑讨论,我们假定表示输入图片的随机变量 X X X(以下简称输入图片),表示编码的随机变量 h h h(以下简称编码),表示得到的重构图片的随机变量 X ^ \hat X X^(以下简称重构图片)

  • 对于编码器和解码器,我们用三个变量来表示,{ ϕ \phi ϕ, h h h, X X X},其中 ϕ \phi ϕ表示“器”的所有参数, h h h表示编码, X X X表示图片(对于编码器是输入图片,对于解码器是重构图片

  • 我们所有的假设都是趋于【完美】,所有的假设的根本出发点都是为了设计出能求的算法

  • P ϕ ( X , h ) P_{\phi}(X,h) Pϕ(X,h)表示在给定 ϕ \phi ϕ的参数下, X X X h h h的联合分布

  • K L ( P ( x ) ∣ ∣ P ( y ) ) KL(P(x)||P(y)) KL(P(x)P(y))表示两个分布 x x x, y y y的KL距离

VAE流程

X X X → \rightarrow Encoder(参数: ϕ \phi ϕ) → \rightarrow h h h → \rightarrow Decoder(参数: θ \theta θ) → \rightarrow X ^ \hat X X^

核心推导

从理想出发

【完美】情况下,我们希望得到一个完全相同的编码器和解码器,即
L o s s ( ϕ , θ , X , h , X ^ ) = K L ( P ϕ ( X , h ) ∣ ∣ P θ ( X ^ , h ) ) = 0 Loss(\phi, \theta,X,h,\hat{X}) = KL(P_{\phi}(X,h)||P_{\theta}(\hat{X},h))=0 Loss(ϕ,θ,X,h,X^)=KL(Pϕ(X,h)Pθ(X^,h))=0
但是可能得不到,那就尽量减少 K L ( ⋅ ∣ ∣ ⋅ ) KL(\cdot||\cdot) KL()吧(KL距离非负):
min ⁡ L o s s ( ϕ , θ , X , h , X ^ ) = K L ( P ϕ ( X , h ) ∣ ∣ P θ ( X ^ , h ) ) \min \quad Loss(\phi, \theta,X,h,\hat{X}) =KL(P_{\phi}(X,h)||P_{\theta}(\hat{X},h)) minLoss(ϕ,θ,X,h,X^)=KL(Pϕ(X,h)Pθ(X^,h))
数学知识告诉我们
L o s s ( ϕ , θ , X , h , X ^ ) = K L ( P ϕ ( X , h ) ∣ ∣ P θ ( X ^ , h ) ) = ∑ X , h , X ^ P ϕ ( h , X ) log ⁡ P ϕ ( h , X ) P θ ( h , X ^ ) = ∑ X , h , X ^ P ϕ ( X ) P ϕ ( h ∣ X ) log ⁡ P ϕ ( X ) P ϕ ( h ∣ X ) P θ ( X ^ ) P θ ( h ∣ X ^ ) \begin{aligned} Loss(\phi, \theta,X,h,\hat{X}) = &KL(P_{\phi}(X,h)||P_{\theta}(\hat{X},h))\\ =& \sum_{X,h,\hat{X}} P_{\phi}(h,X)\log\frac{P_{\phi}(h,X)}{P_{\theta}(h,\hat{X})} \\ =&\sum_{X,h,\hat{X}} P_\phi(X)P_{\phi}(h|X)\log\frac{P_\phi(X)P_{\phi}(h|X)}{P_{\theta}(\hat{X})P_{\theta}(h|\hat{X})} \end{aligned} Loss(ϕ,θ,X,h,X^)===KL(Pϕ(X,h)Pθ(X^,h))X,h,X^Pϕ(h,X)logPθ(h,X^)Pϕ(h,X)X,h,X^Pϕ(X)Pϕ(hX)logPθ(X^)Pθ(hX^)Pϕ(X)Pϕ(hX)
到此为止,能推导的部分已经结束了,在向下就需要做一些假设才能向下推,甚至于有一些假设与原设定相悖,但是没办法,不假设就推不下去GG了

从理想假设 ( A s s u m p t i o n 1 Assumption_1 Assumption1

【完美】情况下,我们最终得到的 X X X X ^ \hat{X} X^应该是一模一样的,所以我们假设重构的 X ^ \hat{X} X^的分布和 X X X一样,所以
L o s s ( ϕ , θ , X , h ) = K L ( P ϕ ( X , h ) ∣ ∣ P θ ( X , h ) ) = ∑ X , h P ϕ

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值