前言
关于VAE的文章网上也有不少,解释的最好最清楚的还是苏剑林老师的这篇文章文章链接,如果你对这篇文章存在一定质疑,说明你对VAE还不够了解,基础知识还有欠缺。本文是在苏剑林老师这篇文章的基础上,结合我自己的理解,用最简单的话来解释VAE,所以会有不严谨的地方。文中有不对的地方,欢迎大家批评讨论。
在介绍VAE时,首先是三联问:我们有什么?我们想得到什么?我们怎么去得到?
一、我们有什么?
在考虑用VAE时,我们首先考虑我们有什么?或者说有什么是已知的?
其实,我们只有样本X={x1,x2,x3,…xN},N代表样本个数。
有些人可能会说,我们还知道先验p(Z)是标准正态分布呢,事实上先验是我们为了更好的到达目的做的一个假设,这个目的就是第二步我们想得到什么。
二、我们想得到什么?
有了第一步的样本X,那么我们想得到什么呢?
我们想知道样本X的分布,假如说我知道了X满足某种分布,那就太好了,我就可以直接从这个分布中采样,得到所有符合分布的样本(X中已知和未知的样本),这属于我们的终极目标,或者说是梦想了。
显而易见,这太难了。不信的同学可以自己思考一下,我给你几个样本,你如何去知道这些样本是满足什么分布呢?
三、我们怎么去得到?
明确了目标,并且知道根据现有的样本得到样本分布是非常困难的,那么接下来就是如何达到目标了。
既然无法直接得到样本的分布,那么我们做一个转换:
我们假设样本x是由一个隐变量z去生成的,此时样本X的分布p(X)可以表示为先从隐变量的分布中采样一个生成样本x的隐变量z,然后根据隐变量z去生成样本x。用公式可以表示为:
接下来就可以直接看苏老师的那篇文章。感觉大家看完苏老师的文章,也就明白了VAE。
大家可以在评论区提问,我会把问题整理到第四部分,进行解答。