ClusterGAN: Latent Space Clustering in Generative Adversarial Networks论文理解

最新推荐文章于 2024-01-08 01:24:52 发布

lllllpf

最新推荐文章于 2024-01-08 01:24:52 发布

阅读量416

点赞数

分类专栏：聚类论文理解文章标签：聚类

本文链接：https://blog.csdn.net/weixin_43897803/article/details/107376592

版权

聚类论文理解专栏收录该内容

3 篇文章 0 订阅

订阅专栏

目的：使用GAN在隐空间中进行聚类

一、背景

普通GAN的训练过程： $min_{\theta G}max_{\theta D}\textbf{E}_{x\sim P^r_x}q(D(x))+\textbf{E}_{z\sim P_z}q(1-D(G(z)))$ ，它无法在隐空间很好地聚类。
原因：GAN聚类的一个可能的方式是将数据反向传播到隐空间，并在隐空间聚类。但是即使反向传播成功也无法很好地聚类。一个关键问题是反向投影的数据分布和隐空间的分布应该是相似的，通常是高斯分布或均匀分布。因此即使隐空间包含了数据的所有信息，但是隐空间向量之间的几何距离不能反映类别信息，因此无法很好地聚类。

二、本文的方法

网络模型：
clusterGAN网络模型
1.从离散连续混合中抽样：
$z=(z_n,z_c),z_n\sim N(0,\sigma ^2I_{d_n}),z_c=e_k,k\sim U\left\{1,2,...,K\right\}$ ，e_k是K维的向量，其中第k维是1，即z_n是正态分布，z_c是K维的离散型one-hot向量，K是类别数量，二者联合构成离散-连续向量z。
经过试验证明，相比于均匀分布、正态分布、高斯混合分布，从离散连续混合中抽样的聚类效果更好。从不同分布中采样得到的隐空间分布如下图所示：

2. 基于改进的反向传播解码
为了获得更好的隐向量，已有的工作是解决一个优化问题： $z^*=arg\space min_zL(G(z),x)+\lambda ||z||_p$ ，其中L是适宜的损失函数，但是这个方法对聚类是不够的。
在本论文中，我们让 $L(G(z),x)=||G(z)-x||_1$ ，惩罚项为 $z_n||^2_2$ ，只惩罚正态部分。再抽样K次，每次用不同的z_c进行抽样，在优化时固定z_c，用Adam优化正态部分。
3.使用线性分类器可以获得更好的聚类效果

引理：Clustering with only z_n cannot recover a mixture of gaussian data in the linearly generated space. Further ∃ a linear G(·) mapping discrete-continuous mixtures to a mixture of Gaussians.

证明：
如果隐空间只包含连续部分，即 $z=z_n\sim N(0,\sigma ^2I_{d_n})$ ，则通过线性生成器只能生成高斯分布。（线性生成器的本质是一个线性变换，高斯分布经过线性变换后还是高斯分布，不能变为混合高斯分布）
如果隐空间包含离散和连续维混合，即 $z=(z_n,z_c),z_n\sim N(0,\sigma ^2I_{d_n}),z_c=e_k,k\sim U\left\{1,2,...,K\right\}$ ,要得到生成数据 $\sim N(\mu_{\omega},\sigma ^2I_{d_n}),\omega \sim U\left\{1,2,...,K\right\}$ ，需要构造一个生成器 $G(\cdot)$ ，使得 $G：Z\to X$ ，可以得到 $x_g=G(z)=G(z_n,z_c)=z_n+Az_c,$ 其中 $A=diag[\mu_1,...,\mu_K]$ 是 $K\times K$ 的对角矩阵。这里的X符合混合高斯分布。
4.使用插值

插值(Interpolation)是离散函数逼近的重要方法，利用它可通过函数在有限个点处的取值状况，估算出函数在其他点处的近似值。

clusterGAN中构造插值点是通过 $z=(z_n,\mu z^{(1)}_c+(1-\mu )z_c^{(2)}),\mu \in [0,1]$ ，可以达到渐变效果(不同类间的过渡)。通过构造不同类间的插值点，使得生成的不同类的可以明显地区分开，是一种提升训练精度的手段
5.几种精度
(1)模型精度
从Z选中第k个簇生成的样本x_g，然后用分类器判断生成样本的类别 $\hat{y}$ ，计算正确率， $(k,\hat{y})$ 即为模型精度
(2)重构精度
X中的属于类 $y$ 的x解码得到z，z再生成x_g，x_g经过分类得到的类标签为 $\hat{y},(y,\hat{y})$ 的精度为重构精度。
(3)聚类精度
X空间中同一类中所有点的映射生成具有相同的one-hot编码，这些点占总点数的比率为聚类精度
6.在原来GAN结构基础上加一个编码器
在目标函数中，编码器的损失函数作为正则化项。因此，加入编码器的其中一个目的是防止GAN的过拟合现象。另一个目的是聚类
7.目标函数
$min_{\Theta _G,\Theta _E}\space max_{\Theta_D}\space \textbf{E}_{x\sim \textbf{P}^r_x}\space q(D(x))+\textbf{E}_{z\sim \textbf{P}_z}\space q(1-D(G(z))) +\beta_n\textbf{E}_{z\sim \textbf{P}_z}||z_n-E(G(z_n))||^2_2+\beta_c\textbf{E}_{z\sim \textbf{P}_z}H(z_c,E(G(z_c)))$
其中H是交叉熵损失。可将其分为两部分来看，前两项为第一部分，后两项为第二部分。
前两项的含义是使得x_g尽可能地与x_r相似，可重新表示为 $\textbf{E}_{x_r\sim \textbf{P}^r_x}\space q(D(x_r))+\textbf{E}_{x_g\sim \textbf{P}^g_x}\space q(1-D(x_g))$ ，其中 $x\sim \textbf{P}^r_x$ 表示为真实数据 $x\in X$ 服从分布 $\textbf{P}^r_x$ ； $x\sim \textbf{P}^g_x$ 表示为真实数据 $x\in X$ 服从分布 $\textbf{P}^g_x$ 。
后两项的含义是使得x_g尽可能地保留z的信息，即信息损失尽可能的小。可重新表示为 $\beta _n \textbf{E}_{z \sim \textbf{P}_z,x_g\sim \textbf{P}^g_x}||z_n-E(x_{g,n})||^2_2+\beta _c\textbf{E}_{z\sim \textbf{P}_z,x_g\sim\textbf{P}^g_x}H(z_c,E(x_{g,c})) =\beta _n\textbf{E}_{z\sim \textbf{P}_z}||z_n-\hat{z_n}||^2_2+\beta _c\textbf{E}_{z\sim \textbf{P}_z}H(z_c,\hat{z_c})$ ，其中， $z=(z_n,z_c),\hat{z}=(\hat{z_n},\hat{z_c}),x_g=(x_{g,n},x_{g,c})$

lllllpf

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
ClusterGAN: Latent Space Clustering in Generative Adversarial Networks论文理解

目的：使用GAN在隐空间中进行聚类一、背景普通GAN的训练过程：minθGmaxθDEx∼Pxrq(D(x))+Ez∼Pzq(1−D(G(z)))min_{\theta G}max_{\theta D}\textbf{E}_{x\sim P^r_x}q(D(x))+\textbf{E}_{z\sim P_z}q(1-D(G(z)))minθGmaxθDEx∼Pxrq(D(x))+Ez∼Pzq(1−D(G(z)))，它无法在隐空间很好地聚类。原因：GAN聚类的一个可能的方式是将数据反向传播到
复制链接

扫一扫