【论文阅读】DCFont: An End-To-End Deep Chinese Font Generation System

本文提出了一个端到端的学习系统,它可以从用户书写的少量(例如775个)字符中自动生成由6763个汉字组成的整个GB2312字库。该系统有两大优势。一方面,该系统以端到端的方式工作,这意味着在离线训练和在线生成期间不需要人工干预。另一方面,设计了一种新的深度神经网络体系结构,通过对抗性训练来解决字体特征重建和笔迹合成问题,与其他基于深度学习的方法相比,该方法需要更少的输入数据,但可以获得更真实和高质量的合成结果。

 DCFont系统包含两个主要组件,分别是字体特征重建网络和字体样式传输网络。给定用户书写的少量字符,字体特征重构网络试图估计所有其他字符的深字体特征,字体样式传递网络使用重构的特征将参考字体(KaiTi)样式中的字符转换成相应的手写样式。这样就可以得到一个用户手写风格的6763个汉字的完整字体库。

字体特征重构网络:

作者尝试通过字体特征重构网络重构关系,在上图网络中,参考字符被发送至VGG16网络为获得参考字符的字体特征,整个架构类似于编码器-解码器网络。在编码器和解码器的相应层中添加跳跃连接,以减少下采样过程中的信息损失。此外,将类别嵌入与编码结果(64维随机向量)相结合,使网络能够更好地区分不同字体。

字体样式传输网络:

使用两个独立的卷积神经网络分别对内容和风格进行编码。对于风格,通过字体特征重构网络得到风格向量hs。对于内容,输入参考图像x通过一系列下采样层,以将图像编码为14 x14 x512内容向量hc。此外,将嵌入hf的14x14x64的64维类别扩展为具有与内容和样式向量相同的维度。然后将向量表示代表具体字符。在那之后,经向量h输入五个残差块(每个包含3x3的卷积层),之后利用一系列上采样层来获得输出图像,考虑到引用和生成的字符应该具有相似的结构来指示相同的内容,作者将内容编码器中细节丰富的低层直接连接到相应的解码器层。

 此外还使用一个鉴别器来将生成的图像分类为真实或虚假,并识别字体类别。与以往的GAN模型不同,该网络有潜在优势,一方面可以根据h生成特定的所需字符。另一方面,在内容和样式编码向量中存在丰富的空间信息,它们都是14x14x512而不是一维的。

 损失函数:

该模型结合了对抗性损失、像素损失和风格恒常性损失。

 G试图最小化在风格上做出正确标签的可能性,并通过最小化来最大化正确的类别预测

考虑到像素空间中内容和风格的相似性,计算Lpixel(L1距离)来衡量输出和目标字符图像之间的相似性,这有助于生成更清晰的图像:

 为了保证深度特征空间中的风格恒定性,还计算了生成字符和目标字符(包括relu2_2、relu3_3、relu4_3)激活之间的均方误差(MSE),

细节处理:在神经网络中,输入和输出的字符图像都是分辨率为224*224,内容编码器包含四个下采样层。每层都是有5*5的2倍卷积层组成。除了最后一层,批处理规范化和LeakyRelu。然后,将组合的隐藏向量发送至五个残差块,每个由两个堆叠的BN-Relu-卷积结构组成。解码器由四个上采样层组成,除了最后一个,每层包含5*5步长的2倍去卷积层、批量归一化和ReLU,在最后一个反卷积层之后使用tanh激活函数。

为了加快模型的收敛速度,提高生成字符的质量,作者用20种不同的字体对网络进行了预训练,每种字体有2000个常用汉字。在一个GPU上进行预训练大约需要三天时间。当学习一种特定手写风格时,该网络可以在不到两个小时内从预训练模型中微调出来。

实验结果:

通过DCFont和其他现有方法获得的三种手写风格的合成结果的比较:

 一些不令人满意的合成结果:

 

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值