Inverting the Generator of a GAN 生成器反向

       上一篇文章的卷积反卷积自编码框架本来我是打算用作GAN的生成器,这样一来我用GAN生成的图像就可以受我控制了,而不是像DCGAN那样生成器的输入是一个随机的100维向量。

       但是用卷积与反卷积自编码来作为生成器,我觉得似乎有点麻烦,首先要训练一个编码器网络,然后将编码器网络生成的向量代替类似于DCGAN中的z向量,实现对GAN生成模型输出的控制效果。因为我也不搞GAN,所以不如去找找现成的,于是乎就上IEEE Trans上找到可找篇论文

Creswell A , Bharath A A . Inverting the Generator of a Generative Adversarial Network[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018:1-8.

         整篇论文看下来有不少细节问题,比如图文不对应,不过不影响论文内容,整体上来说所用的方法是简洁明了的。

1、什么是生成器反向?

1.1 GAN基本原理

       这就要从GAN 的基本原理说起了,放个传送门,简单来说,GAN 由两部分组成:Generator(生成器):生成模型的目的,就是要尽量去模仿、建模和学习真实数据的分布规律;Discriminator(鉴别器:而判别模型则是要判别自己所得到的一个输入数据,究竟是来自于真实的数据分布还是来自于一个生成模型。基本框架如下:

所以对于传统的GAN来说,输入一个随机噪声,生成器生成与样本图像类似的图像,所以说生成器的输入z看作生成图像G(z)的一种表示,而且DCGAN已经证明了GANs能够学习一种rich linear structure”

       即对z空间的代数运算常常会导致图像空间在语义上有意义的合成样本

       例如假设图片A 对应的输入为ZA , 图片B 对应的输入为ZB , 可以ZA ZB 之间做插值,并使用G 生成每一个插值对应的图片DCGAN 可以让生成的图像以比较自然的方式A 过渡B。举个栗子:

不仅可以对输入信号z 进行过渡插值,还可以对其进行更复杂的类似于代数的运算如图8-4 所示,用代表“露出笑容的女性”的z减去”女性再加上“男性”,最后得到了“露出笑容的男性”。对Z-Space的性质有个大概的理解后,接下来看什么是反向生成。

1.2 反向生成(INVERTING THE GENERATOR

先上图:

       简单来说就是我有一张target image x,我想要用一个训练好的GAN生成我这张x,那我怎么知道该给生成器G的z什么,那按照传统的GAN中z向量都是随机或者说按照一定分布生成的,总不能一个一个z的试,所以本文介绍了一种能够利用经过训练的GANs生成器,将数据样本比如图像投影潜在z空间的反演模型;这么做有啥用?当然有用了,比如由于图像在Z空间的表示通常是有意义的,所以可以直接利用图像集在Z空间的表示进行识别任务;其次可以通过对Z空间的操作生成图像等等

······当然了这一块之前也肯定有人做了,他们怎么做的呢?他们跟我的想法类似,都是借助神经网络实现的,比如说设计一个编码器,这么做有什么不好呢?因为这样增加了参数的数量,参数越多不仅网络参数难调而且容易出现过拟合的情况;

生成器反向这种方法也能用于评估GANs网络的性能,为什么呢,因为如下图所示,将反向过程输出的Z空间向量z,再经过GAN的生成器生成图像,通过生成的图像与原图作对比,就可以大概看出来你训练出来的GAN网络性能如何,学习到了哪些特征,学习到的特征是不是很充分,这就属于该方法可对GAN网络模型进行定性分析,如果对原图与生成图像再求一个均方差MSE,这就属于该方法可对GAN网络模型进行定量分析。所以可以利用该方法来对两个GANs生成模型进行评估对比

 

这篇文章的贡献贴上:

  • A novel approach to invert the generator of any pretrained GAN, provided that the computational graph for the generator network is available
  • we are able to infer a Z-space representation for a target image, such that when passed through the GAN, it produces a sample visually similar to the target image
  • The proposed inversion technique may be used to both qualitatively and quantitatively compare GAN models;
  • We show that batches of z samples can be inferred from batches of image samples, which improve the efficiency of the inversion process by allowing multiple images to be inverted in parallel

2、具体实现

至于说Inverting a Batch of Samples都是唬人的,就是相当于并行多个单sample,类似于深度学习中简化计算用的向量化手段。不过原理还是挺简单的,多的不想写了,做个简单了解算了

Target image?∈R^(m∗m)              Pretrained GANs: G( )

目的:推理出目标image x Z空间的表示 ??

约束条件z 通过生成模型生成的image应当与x很相似;

所以该问题转换为最小化问题,z^∗可通过梯度下降法求得:

  • 4
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
一款具备专业转换效果的PDF转换器,支持将PDF转换为Word、Excel、PowerPoint、EPUB、HTML、Text等格式,转换后能保留源PDF的文本、图片、表格、超链接、页面布局与格式等信息。 转换PDF至XLS/XLSX时,能够使设置是否保存表单的格式信息,如字体颜色等,转换PDF为EPUB时,则可设置字体颜色及背景色。 便携版实际是Wondershare PDF Converter Pro专业版,支持OCR技术(OCR组件:光学字符识别 请自行下载,214M),从而可以轻松转换扫描PDF或图片PDF,文字识别语言包括英文、简体中文、繁体中文、German、French、Italian、Portuguese、Spanish、Korean、Japanese、Greek、Thai、Turkish、Russian、Polish、Czech、Slovak、Ukrainian、Bulgarian、Croatian、Romanian、Catalan等,与之前的ABBYY FineReader或Able2Extract提供相同的功能模块。 主要功能: 精确保存 PDF转换为Word, Excel, PowerPoint ,EPUB和 HTML后,能够保留文本, 列, 表格, 图表, 图像和超链接的原有布局,无需重新输入或编排转换后的文件. 将PDF转为Excel后, 图像能被单独提取分离,您可以很容易的将图像插入Excel 数据表 两种高效转换模式 批量转换---一次可以转换超过200 个PDF文件 部分转换---允许您选择PDF文件的任何页面进行转换 多样性 不需要安装 Adobe Reader, Adobe Acrobat, Microsoft Word 和 Excel 支持转换受密码保护的和受限的PDF文件 非常容易使用 用户界面友好 特点: 支持 Microsoft Office 2010 and Windows 7 能将PDF转为 Word, Excel, PowerPoint, EPUB, HTML, Text 转换后能保留文本, 表格, 图像, 超链接和布局 一次能转换200多个PDF文件 支持转换受保护的PDF文件 若360 金山毒霸报毒请添加信任
### 回答1: involution是一种用于视觉识别的算法,它反转了卷积的内在特性。它通过将卷积操作中的滤波器权重转换为可学习的点积操作,从而提高了模型的效率和准确性。involution算法在计算机视觉领域中具有广泛的应用,特别是在目标检测和图像分割等任务中。 ### 回答2: involution是在计算机视觉领域中概念比较新的一种方法。它是对传统卷积算法的一种逆运算,用来增强卷积神经网络中的非线性建模能力。involution的核心思想是在特征图的每个位置上利用可学习的感受野(receptive field)来进行特征融合,使得网络可以更好地捕捉目标之间的全局关系。 举个例子,我们在计算机视觉中常用的卷积层中,每一个卷积核通常只能对应一个大小固定的感受野。而involution层通过在每个位置上学习一个可变大小的感受野来取代卷积核,从而增强了网络对于目标间距离的捕捉。同时,involution层不仅可以被添加到普通的卷积神经网络中,还可以嵌入到注意力机制、自注意力机制等模型中,提高了模型的表达能力和性能。 相对于传统的卷积层,involution层有多方面的优点。首先,可变感受野大小的应用让involution能够处理更加复杂的视觉场景。其次,involution能够更好地捕捉目标之间的全局关系,对于跨越较大距离的目标关系识别和图像分割等任务非常有效。最后,involution的结构相对简单,不需要过多的计算与存储,可以大幅度减少网络的训练时间和计算资源占用,同时保证优秀的性能表现。 总之,involution可以被看作是一种高效而又强大的计算机视觉算法,对于面对复杂的图像场景和目标识别任务的解决具有重要的意义。 ### 回答3: Involution是近年来计算机视觉领域中一个新的概念,是一种反转卷积(convolution)的方法,可以更高效地进行视觉识别。所谓卷积,即是将一个滤波器与输入数据的每一个小区域进行乘法运算,然后将所有乘积相加得到一个数值作为输出。而在深度学习中,我们通常使用卷积神经网络来对输入数据进行分类或识别。 然而,在深度学习中,卷积处理是一件十分耗费计算资源的任务。特别是当我们需要处理高分辨率的图像时,其复杂度更是极高。因此,为了提高卷积神经网络的效率,Involution便应运而生。 那么,Involution到底是如何实现反转卷积的呢?其实,它的实现方法非常简单。它通过将输入数据划分成不同的区域,然后在每个小区域内执行局部变换操作,最后再将每个小区域的结果组合成一个输出。这种做法可以使得计算量大幅度降低,同时还可以减少运算中的参数数量。而且,按照这种方法执行的Involution操作还可以在不同分辨率之间进行协作,进一步提高神经网络的效率和准确率。 总之,Involution通过将输入数据分解成小块,实现了卷积操作的反转,从而实现了对图像的高效处理,特别是对于大尺度的图像和超高分辨率的图像,效果是非常显著的。其简单而有效的原理,有望成为未来深度学习领域的重要研究方向之一。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值