多模态数字服装生成模型AIpparel, 可根据文本和图像等多模态输入生成复杂、多样、高质量的缝纫图案。
#01
**/**介绍
斯坦福大学和苏黎世联邦理工学院提出一种数字服装的多模态生成模型AIpparel,通过在自定义缝纫图案数据集上使用新颖的标记方案对大型多模态模型进行微调来训练这些图案。AIpparel 根据文本和图像等多模态输入生成复杂、多样、高质量的缝纫图案,并解锁了语言指导的缝纫图案编辑等新应用。生成的缝纫图案可直接用于模拟相应的 3D 服装。
相关链接
• 论文:http://arxiv.org/abs/2412.03937v1
#02
**/**作用
服装是人类生活中必不可少的物品,它能提供保护、反映文化特征并展示个人风格。然而,服装的制作仍然是一个耗时的过程,这主要是因为设计服装需要手工操作。为了简化这个过程,我们引入了 AIpparel,这是一个用于生成和编辑缝纫图案的大型多模态模型。我们的模型在一个定制的大型数据集上对最先进的大型多模态模型 (LMM) 进行了微调,该数据集包含超过 120,000 件独特的服装,每件服装都带有多模态注释,包括文本、图像和缝纫图案。此外,我们提出了一种新颖的标记化方案,可以简洁地编码这些复杂的缝纫图案,以便 LLM 可以学习有效地预测它们。AIpparel 在单模态任务(包括文本到服装和图像到服装预测)中实现了最先进的性能,并且它支持新颖的多模态服装生成应用,例如交互式服装编辑。
AIpparel使用一种新颖的缝纫图案标记器(浅蓝色区域)将每个面板标记为一组特殊标记(浅绿色区域)。面板顶点位置和 3D 变换通过位置嵌入(彩色箭头)合并到标记中。AIpparel接收多模态输入,例如图像和文本(浅橙色区域),使用自回归采样输出缝纫图案(浅灰色区域)。最后,对输出进行解码以生成可用于模拟的缝纫图案(浅粉色区域)。
#03
**/**结果
图像到服装预测(定性)。GCD-MM(左):模型可以仅从输入图像重建合适的缝纫图案。相比之下,尽管经过微调,SewFormer 也无法生成可用于模拟的缝纫图案。SewF actory(右):SewFormer 生成不准确的面板(上行)和不正确的服装类型(下行),而 AIpparel 可以准确地从图像中恢复缝纫图案,从而获得出色的模拟结果。
多模态缝纫图案预测(定性)。AIpparel 可以准确预测缝纫图案,其遵循输入的效果优于基线。
缝纫图案编辑(定性)。与基线相比,我们的模型更准确地遵循编辑指令,准确地在背心上添加一个兜帽(顶行)并拉长裙子(底行)。
消融(定性)。DressCode 的标记器生成不切实际的图案(第二行,带框区域)并且与文本输入不匹配(即“喇叭下摆”)。相比之下,我们的标记器输出几何规则的缝纫图案,与输入准确对齐
视觉语言和其他大型多模态模型可以捕获网络知识,并为许多下游应用提供推理能力。通过微调 LMM 来理解缝纫图案,我们迈出了视觉语言服装模型的第一步,该模型将网络知识转移到服装生成和编辑中,为时装设计和制造解锁了大量应用。
写在最后
SD全套资料,包括汉化安装包、常用模型、插件、关键词提示手册、视频教程等都已经打包好了,无偿分享,有需要的小伙伴可以自取。
感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。
AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。
一、AIGC所有方向的学习路线
AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。
二、AIGC必备工具
工具都帮大家整理好了,安装就可直接上手!
三、最新AIGC学习笔记
当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
四、AIGC视频教程合集
观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
五、实战案例
纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
请添加图片描述
若有侵权,请联系删除