海报设计师的福音来了,微软联合清华北大提出Glyph-ByT5-v2,可支持多国语言图文海报生成,效果惊艳!

139 篇文章 6 订阅
105 篇文章 3 订阅

清华&北大&微软&利物浦大学联合提出Glyph-ByT5-v2这款工具支持多语言图文生成,包括英语、中文、日文、韩文、法文、德文、西班牙文、意大利文、葡萄牙文和俄文。

以下分别展示中、英、日、韩图文的视觉文本结果一起带大家感受一下。

相关链接

论文地址:https://arxiv.org/abs/2406.10208

项目地址:https://github.com/AIGText/Glyph-ByT5

模型下载:https://huggingface.co/GlyphByT5/Glyph-SDXL-v2

试用链接:https://huggingface.co/spaces/GlyphByT5/Glyph-SDXL-v2

论文阅读

摘要

最近,Glyph-ByT5 在平面设计图像中实现了高精度的视觉文本渲染性能,但它仍然只专注于英语,在视觉吸引力方面表现相对较差。在这项工作中,我们通过推出 Glyph-ByT5-v2 解决了这两个根本限制,它不仅支持 10 种不同语言的精确视觉文本渲染,而且实现了更好的美学质量。

为实现这一目标,我们做出了以下贡献:

  • 创建一个高质量的多语言字形文本和图形设计数据集,包含超过 100 万个字形文本对和 1000 万个图形设计图像文本对,涵盖其他 9 种语言;

  • 构建一个由 1,000 个提示组成的多语言视觉段落基准,每种语言 100 个提示,以评估多语言视觉拼写准确性;

  • 利用最新的步骤感知偏好学习方法来提高视觉美学质量。

通过结合这些技术,我们提供了功能强大的定制多语言文本编码器 Glyph-ByT5-v2 和功能强大的美观图形生成模型 Glyph-SDXL-v2,它们可以支持 10 种不同语言的准确拼写。考虑到最新的 DALLE-3 和 Ideogram 仍然难以完成多语言视觉文本渲染任务,我们认为我们的工作是一项重大进步。

提高多语言视觉文本渲染精度

上表描述了多语言可视化文本呈现结果。 通过我们的方法实现了不同数量的角色。性能通过评估字级精度来证明对于上面列出的七种语言和字符级精度对于下面列出的三种语言。所有结果都基于单一模型,而不是为每种语言量身定制的多个模型。

提高美学品质

用户研究结果

用户研究结果显示,图形设计图像在多语言视觉文本拼写准确性、布局质量和视觉美学方面的胜率均由人类评估者偏好进行评估

效果展示

下图展示了在训练后应用步进感知偏好优化 (SPO) 的效果。按顺序显示由以下方法生成的图像:第一行是 Glyph-SDXL,第二行是 Glyph-SDXL Albedo,最后一行是 Glyph-SDXL Albedo + SPO。

下图展示了利用DALL·E3和Ideogram 1.0实现多语言生成结果的可视化。

更多效果展示

结论

在本文中,我们提出了一种改进的定制多语言文本编码器,用于精确的多语言视觉文本渲染。我们构建了可扩展的高质量多语言字形文本和图形设计数据集,从而能够训练我们的模型 Glyph-ByT5-v2 和 Glyph-SDXL-v2。我们通过经验表明,用针对人类偏好优化的后训练版本替换原始 SDXL 可以显著增强视觉美感。通过详细的比较和用户研究证明了我们方法的有效性。

  • 18
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AIGC Studio

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值