体验 | Yann LeCun肯定的照片生成模型,PhotoMaker上线wisemodel社区

PhotoMaker模型是由南开大学媒体计算实验室和腾讯ARC实验室联合研发的个性化定制文生图模型。PhotoMaker是一种高效的个性化文本到图像生成方法,除了生成逼真的人像,还能进行其他风格的生成,如草图、漫画、动画等。目前已经由研究团队发布在始智AI wisemodel.cn开源社区,也可以在社区直接进行模型体验了。

图片

https://wisemodel.cn/models/MCG-NKU/PhotoMaker(模型地址)

大家都可以在wisemodel社区体验试玩,操作也非常简单,分为 4 步:

首先是上传一张图片,一张就可以了,不过多张效果会更好,上传图片中的人脸应该占据图像的大部分。

第二步是输入文本提示,操作过程中确保使用触发词 img,例如 man img、woman img 或 girl img。

第三步是选择喜欢的风格模板(内置有十多种)。

最后一步是单击 Submit 按钮,等待生成。

以上生成过程如果有操作不当的地方,PhotoMaker 都会进行提示,不用怕自己操作失误。

图片

https://wisemodel.cn/space/gradio/photomaker(体验地址)

图片

图片

Yann LeCun 身穿钢铁侠的衣服、戴着酷酷的墨镜面无表情地注视着你,一身古装在故宫门前打卡留念……其本人表示最喜欢左下角的文艺复兴风格的画。

PhotoMaker概述

PhotoMaker的新型个性化文本到图像生成方法,能够高效地生成逼真的照片,同时保持输入图像的身份(ID)信息。PhotoMaker的核心特点是能够通过堆叠多个输入ID图像的嵌入(stacked ID embedding)来保留ID信息,这种方法不仅能够全面地封装同一输入ID的特征,还能够整合不同ID的特征以便于后续的融合。这种方法为生成多样化的个性化图像提供了可能,例如改变属性、将艺术作品或旧照片中的人物带入现实,或者进行身份混合。

PhotoMaker在多个应用场景中表现出色,包括:

属性更改:改变输入人物的属性,如配饰和表情。

艺术作品/旧照片到现实:将艺术作品或旧照片中的人物带入现实,生成逼真的照片。

身份混合:将不同人物的特征混合,生成新的定制ID。

图片

PhotoMaker方法

PhotoMaker通过堆叠ID嵌入(Stacked ID Embedding),将多个输入ID图像的嵌入信息综合起来。首先,使用CLIP图像编码器从每个输入ID图像中提取图像嵌入。然后,通过多层感知器(MLP)将这些嵌入与对应的类别词的特征向量进行融合,以形成更全面的ID表示。接下来,将所有融合后的嵌入沿长度维度进行拼接,创建一个统一的堆叠ID嵌入,不仅包含了每个输入ID图像的详细信息,而且能够适应性地整合到扩散模型中。在生成过程中,堆叠ID嵌入被用作文本嵌入的一部分,通过交叉注意力机制与文本提示一起,指导模型生成新的、个性化的图像。这使得PhotoMaker在不牺牲效率的情况下,生成具有高度身份保真度和多样性的图像,同时提供了对生成图像的灵活控制。

图片

PhotoMaker的数据构建过程旨在创建一个以ID为导向的人类图像数据集。首先,从公开数据源,如VoxCeleb和VGGFace等,下载大量名人图片,并通过RetinaNet进行人脸检测和筛选,确保图片质量,之后,使用ArcFace进行ID验证,以识别和选择属于同一身份的脸部区域。然后,通过Mask2Former进行全景分割,精确裁剪出脸部区域。最后,利用BLIP生成描述性标题,并结合依赖解析模型和CLIP分数来确定与身份相关的类别词,为每个图像提供准确的文本描述。

PhotoMaker实验及DEMO

PhotoMaker在属性更改方面表现出色,能够根据文本提示改变输入人物的发型、服装等属性,同时保持高ID保真度。

图片

在将艺术作品或旧照片中的人物带入现实的场景中,PhotoMaker能够生成逼真的现代照片,而其他方法如DreamBooth和SDXL在这方面存在困难。

图片

PhotoMaker在改变年龄或性别的应用中,能够更准确地捕捉角色的特征信息,实现更高质量的生成结果。

图片

在身份混合方面,PhotoMaker能够将不同ID的特征有效融合,形成新的ID,而其他方法则难以实现这一功能。

图片

PhotoMaker在ID保真度、生成质量、多样性和文本一致性方面获得了用户的高度评价,显示出其在个性化图像生成领域的潜力和实用性。

结论

PhotoMaker作为一种高效的个性化文本到图像生成方法,成功地在生成逼真人类照片的同时,保持了高效率、良好的身份(ID)保真度和灵活的文本控制能力。PhotoMaker通过堆叠ID嵌入技术,允许用户在不进行额外微调的情况下,快速生成具有特定身份特征的个性化图像。这种方法不仅在多个应用场景中表现出色,如属性更改、艺术作品人物现实化、身份混合等,而且在消融研究中展示了其对输入图像数量和训练策略的敏感性,从而优化了模型性能。

  • 43
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值