论文总结或本文学习的知识点。
本篇论文的实现的功能是用一个模型将文本描述自动合成真实的图像,也就是把人类所写的一句描述性文本翻译成一副图像的方法。
学习的知识点如下:
文章中用了对抗神经功能网络GAN,其实GAN网络可以分为G方和A方。G相当于造假钱的。A相当于检测人员。A是竭尽所能分清真钱和假钱。而G是通过A的反馈。自己在增强技术生成A无法识别的钱。彼此相互对抗。直到生成器生成以假乱真的钱为止。
文中的总体模型结构如下:
网络架构大致的流程如下:
生成器:文本通过编码器编译成向量,通过激活函数激活,加入噪声后,反卷积得到图像。
辨别器:主要用到的CNN进行分类。
文中实验结果得出的方法是GAN-INT-CLS效果更好,GAN-CLS文中提到用了三个类别,一个(正,正)(错,错)(正,错)的标签,能够提升辨别器的辨别能力。
而GAN-INT,相当于增加了数据集。能够更好的训练生成器。
文中用了将两者合并起来,对辨别器和生成器都有了提升。
为了让文本转换为图更真实,加入了风格编码。