【论文阅读】DCFont: An End-To-End Deep Chinese Font Generation System

最新推荐文章于 2025-01-30 23:48:49 发布

sard74

最新推荐文章于 2025-01-30 23:48:49 发布

阅读量1.1k

点赞数 2

文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_45740118/article/details/118700465

版权

本文提出了一个端到端的学习系统，它可以从用户书写的少量(例如775个)字符中自动生成由6763个汉字组成的整个GB2312字库。该系统有两大优势。一方面，该系统以端到端的方式工作，这意味着在离线训练和在线生成期间不需要人工干预。另一方面，设计了一种新的深度神经网络体系结构，通过对抗性训练来解决字体特征重建和笔迹合成问题，与其他基于深度学习的方法相比，该方法需要更少的输入数据，但可以获得更真实和高质量的合成结果。

DCFont系统包含两个主要组件，分别是字体特征重建网络和字体样式传输网络。给定用户书写的少量字符，字体特征重构网络试图估计所有其他字符的深字体特征，字体样式传递网络使用重构的特征将参考字体(KaiTi)样式中的字符转换成相应的手写样式。这样就可以得到一个用户手写风格的6763个汉字的完整字体库。

字体特征重构网络:

作者尝试通过字体特征重构网络重构关系，在上图网络中，参考字符被发送至VGG16网络为获得参考字符的字体特征，整个架构类似于编码器-解码器网络。在编码器和解码器的相应层中添加跳跃连接，以减少下采样过程中的信息损失。此外，将类别嵌入与编码结果(64维随机向量)相结合，使网络能够更好地区分不同字体。

字体样式传输网络：

使用两个独立的卷积神经网络分别对内容和风格进行编码。对于风格，通过字体特征重构网络得到风格向量hs。对于内容，输入参考图像x通过一系列下采样层，以将图像编码为14 x14 x512内容向量hc。此外，将嵌入hf的14x14x64的64维类别扩展为具有与内容和样式向量相同的维度。然后将向量表示代表具体字符。在那之后，经向量h输入五个残差块（每个包含3x3的卷积层），之后利用一系列上采样层来获得输出图像，考虑到引用和生成的字符应该具有相似的结构来指示相同的内容，作者将内容编码器中细节丰富的低层直接连接到相应的解码器层。

此外还使用一个鉴别器来将生成的图像分类为真实或虚假，并识别字体类别。与以往的GAN模型不同，该网络有潜在优势，一方面可以根据h生成特定的所需字符。另一方面，在内容和样式编码向量中存在丰富的空间信息，它们都是14x14x512而不是一维的。

损失函数：

该模型结合了对抗性损失、像素损失和风格恒常性损失。

G试图最小化在风格上做出正确标签的可能性，并通过最小化来最大化正确的类别预测

考虑到像素空间中内容和风格的相似性，计算Lpixel(L1距离)来衡量输出和目标字符图像之间的相似性，这有助于生成更清晰的图像:

为了保证深度特征空间中的风格恒定性，还计算了生成字符和目标字符(包括relu2_2、relu3_3、relu4_3)激活之间的均方误差(MSE)，

细节处理：在神经网络中，输入和输出的字符图像都是分辨率为224*224，内容编码器包含四个下采样层。每层都是有5*5的2倍卷积层组成。除了最后一层，批处理规范化和LeakyRelu。然后，将组合的隐藏向量发送至五个残差块，每个由两个堆叠的BN-Relu-卷积结构组成。解码器由四个上采样层组成，除了最后一个，每层包含5*5步长的2倍去卷积层、批量归一化和ReLU,在最后一个反卷积层之后使用tanh激活函数。

为了加快模型的收敛速度，提高生成字符的质量，作者用20种不同的字体对网络进行了预训练，每种字体有2000个常用汉字。在一个GPU上进行预训练大约需要三天时间。当学习一种特定手写风格时，该网络可以在不到两个小时内从预训练模型中微调出来。

实验结果：

通过DCFont和其他现有方法获得的三种手写风格的合成结果的比较：