Normalizing Flows学习

最新推荐文章于 2024-06-08 09:57:14 发布

Daft shiner

最新推荐文章于 2024-06-08 09:57:14 发布

阅读量644

点赞数

分类专栏：算法学习文章标签：线性代数机器学习

本文链接：https://blog.csdn.net/weixin_46782905/article/details/119958725

版权

算法学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

行列式的含义

借用参考文献中的图来简单解释一下，详细解释可以去查看参考文献。 $X$ 服从0-1的均匀分布，其 $Y = 2 X + 1$ ,绿色正方形和蓝色长方形分别表示两个分布 $p (x)$ 和 $p (y)$ 的概率分布，由于任何一个概率分布的积分均为1，所以他们的面积都是1。也因此可得下图：
在这里插入图片描述
若考虑 $X$ 上的极小变化 $d x$ , $Y$ 也相应发生变化 $d y$ , 如下所示:

由于要保证二者的变化量相等，则有：
$p (x) d x = p (y) d y$
化简可得：
$p(y)=p(x)\frac{dx}{dy}$
当有两个变量时，给定一个边长为1的小方块，给它乘以矩阵 $\begin{bmatrix} {a}&{b}\\ {c}&{d}\\ \end{bmatrix}$ 之后，就变成了一个平行四边形，如图所示:
四个点的坐标分别是：
$\begin{bmatrix} {0}&{0}\\ \end{bmatrix}$ $\begin{bmatrix} {0}&{1}\\ \end{bmatrix}*\begin{bmatrix} {a}&{b}\\ {c}&{d}\\ \end{bmatrix}=\begin{bmatrix} {c}&{d}\\ \end{bmatrix}$ $\begin{bmatrix} {1}&{0}\\ \end{bmatrix}*\begin{bmatrix} {a}&{b}\\ {c}&{d}\\ \end{bmatrix}=\begin{bmatrix} {a}&{b}\\ \end{bmatrix}$ $\begin{bmatrix} {1}&{1}\\ \end{bmatrix}*\begin{bmatrix} {a}&{b}\\ {c}&{d}\\ \end{bmatrix}=\begin{bmatrix} {a+c}&{b+d}\\ \end{bmatrix}$
该平行四边形的面积为 $\times \frac{1}{2} \times c \times d - 2 \times \frac{1}{2} \times a \times b - 2 \times c \times b = a \times d - c \times b = det|\begin{bmatrix} {a}&{b}\\ {c}&{d}\\ \end{bmatrix}|$

在这里插入图片描述
三维的情况时，“转换为平行四边形”就对应为“转换为平行六面体”，或者更高维的情况也是以此类推，“转换为平行n维体”。行列式的道理也还是如此，线性变换后的体积，正好对应于变换矩阵的行列式。
在高维情况时上述情况依旧成立，即线性变换之后的体积等于转换矩阵的行列式。
$y=f(x)\\ p(y)=p(f^{-1}(y))|\frac{dx}{dy}|=p(f^{-1}(y))|det(J(f^{-1}(y)))|\\ log(p(y))=log(p(f^{-1}(y)))+log(|det(J(f^{-1}(y)))|)$ 综上所述：行列式就是局部线性转换的体积变化率。

参考文献：
-Normalization Flow (标准化流) 总结
-对雅可比矩阵的理解
-标准化流(Normalizing Flow)教程（一）
-Normalizing Flows Tutorial, Part 1: Distributions and Determinants

Normalizing Flows

对于一个生成人脸的任务，我们通过将数据 $z$ 输入一个生成器 $G$ 中得到一张图片 $x$ ,即 $x = G (z)$ ，其中这个原始数据 $z$ 可能是服从某一分布的，常见的如正态分布。而生成的 $x$ 则是另一个分布。该生成器的目的即为使生成器 $G$ 生成的分布尽可能和真实人脸分布尽可能相近。这一过程如下图所示：
在这里插入图片描述
那么如何产生好的生成器 $G$ 呢，就是从真实的人脸数据采样一些人脸图片，使生成器 $G$ 生成这样的图片的极大似然概率最大（这个个人觉得不太好理解）。也近似为使 $P_{data}$ 和 $P_G$ 的KL散度尽可能小。（这个很好理解）
插播个雅可比矩阵和其逆矩阵的关系： $det|Jacobi_f|=\frac{1}{det|Jacobi_{f^{-1}}|}$ 根据第一部分计算得到的公式：
$y=f(x)\\ log(p(y))=log(p(f^{-1}(y)))+log(|det(J(f^{-1}(y)))|)$ 这里 $x = G (z)$ 所以有：
$log(p_{G}(x^i))=log(\pi (G^{-1}(x^i)))+log(|det(J_{G^{-1}})|)$
在这里插入图片描述
要求上式有两个问题：
1.如何来计算生成器 $G$ 的逆。因为要可逆，这里输入和输出的维度必须保持一致。
2.如何计算生成器 $G$ 的雅可比矩阵，因为如果输入输出都是高维，那么其雅可比矩阵的计算量将非常大。
由于有了上述约束，生成器 $G$ 不像GAN一样容易设计，接下来的部分将介绍如何设计生成器 $G$ 。
既然一个生成器 $G$ 生成分布的能力有限，那么就套娃使其得到复杂的分布：
在这里插入图片描述
那么图片中套娃的公式也就比较好理解了，相当于把前一个的输出当作输入再次待入公式。取log以后将连乘变成连加。
$log_{p_K}(x^i)=log(\pi (z^i))+\sum_{h=1}^{K}{log|det(J_{G_K^{-1}})|}$ 在上述公式中你会发现只需要使用 $G^{-1}$ ,那么怎么计算 $G^{-1}$ 呢？
在这里插入图片描述
首先从真实数据集中采样得到真实样本，送入 $G^{-1}$ 会得到相应的 $z^i$ ,看 $log_{p_K}(x^i)$ ,其有两项构成： $log(\pi (z^i))$ 和 $\sum_{h=1}^{K}{log|det(J_{G_K^{-1}})|}$ 。针对第一项，由于 $\pi(.)$ 是正太分布，当 $z^i$ 取0的向量的时候第一项最大，然而第二项则因为行列式为0趋向负无穷大，无法优化，因此两项无法单独优化得联合优化。

$G^{-1}$ 如何巧妙求解

在这里插入图片描述
设计一个coupling layer,它有两部分构成： $z_1-z_d$ 和 $z_{d+1}-z_D$ 。使其 $z_1-z_d$ 直接copy得到 $x_1-x_d$ ,同时将 $z_1-z_d$ 分别通过两个函数 $F$ 和 $H$ 得到 $\beta_{d+1}-\beta_{D}$ 和 $\gamma_{d+1}-\gamma_D$ ，并将 $z_{d+1}-z_D$ 点乘 $\beta_{d+1}-\beta_{D}$ 再加上 $\gamma_{d+1}-\gamma_D$ 得到 $x_{d+1}-x_D$
上一段讲的是如何通过 $z$ 得到 $x$ ，接下来将简述其逆过程。由于 $z_1-z_d$ 直接copy得到 $x_1-x_d$ ，因此反过来 $x_1-x_d$ 也可以直接copy得到 $z_1-z_d$ 。而针对 $z_{d+1}-z_D$ 上一段中通过 $x_{i>d}=z_{i>d} \times \beta_{i>d} + \gamma_{i>d}$ 反过来就有 $z_{i>d}= \frac{x_{i>d} - \gamma_{i>d}}{\beta_{i>d}}$
经过上述操作以后， $G$ 和 $G^{-1}$ 都可以求得了（太妙了）

雅可比矩阵的化简

接下来还剩一个雅可比矩阵的行列式问题需要解决:
在这里插入图片描述
有了上述的操作很容易理解为什么左上角是单位阵（直接copy），同时因为 $z_{d+1}-z_D$ 和 $x_1-x_d$ 没有任何关系，因此右上角是0，虽然 $z_1-z_d$ 和 $x_{d+1}-x_D$ 之间有很复杂的关系（ $F$ 和 $H$ 很复杂，但是由于分块矩阵的性质）左下角的这一块不在乎！！！气不气，管你多难，都没用。那么最终就只剩下右下角的部分。而这部分是 $x_{d+1}-x_D$ 和 $z_{d+1}-z_D$ 之间的关系，根据 $x_{i>d}=z_{i>d} \times \beta_{i>d} + \gamma_{i>d}$ 可得 $det|J_G|=\frac{\partial x_{d+1}}{\partial z_{d+1}}\frac{\partial x_{d+2}}{\partial z_{d+2}}...\frac{\partial x_{D}}{\partial z_{D}}=\beta_{d+1}\beta_{d+2}...\beta_{D}$ 妙，真的是妙。

stacking problem

在这里插入图片描述
由于 $z_1-z_d$ 直接复制得到 $x_1-x_d$ ，对于多个模型嵌套那他左上角将一直保持不变，这实际是不现实的。实际上交替改变复制位置来实现改变：

贴个李宏毅老师讲的图像生成实例，看图很容易理解这里就不再赘述了，有兴趣自己去看文章：
在这里插入图片描述

最后贴个图放松一下心情：

参考文献：
-李宏毅机器学习2019(国语):Flow-based Generative Model
-【学习笔记】生成模型——流模型（Flow）

Daft shiner

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Normalizing Flows学习

发表于ICLR2020-论文链接-代码链接在讲文章之前先介绍一下先验知识Molecular graph generationNormalizing Flows借用参考文献中的图来简单解释一下，详细解释可以去查看参考文献。XXX服从0-1的均匀分布，其Y=2X+1Y=2X+1Y=2X+1,绿色正方形和蓝色长方形分别表示两个分布p(x)p(x)p(x)和p(y)p(y)p(y)的概率分布，由于任何一个概率分布的积分均为1，所以他们的面积都是1。也因此可得下图：若考虑XXX上的极小变化dxdxd.
复制链接

扫一扫