体验 | Yann LeCun肯定的照片生成模型，PhotoMaker上线wisemodel社区

最新推荐文章于 2024-07-23 14:36:35 发布

始智AI wisemodel

最新推荐文章于 2024-07-23 14:36:35 发布

阅读量1.5k

点赞数 43

文章标签：人工智能开源

本文链接：https://blog.csdn.net/wisemodel/article/details/135879934

版权

PhotoMaker模型是由南开大学媒体计算实验室和腾讯ARC实验室联合研发的个性化定制文生图模型。PhotoMaker是一种高效的个性化文本到图像生成方法，除了生成逼真的人像，还能进行其他风格的生成，如草图、漫画、动画等。目前已经由研究团队发布在始智AI wisemodel.cn开源社区，也可以在社区直接进行模型体验了。

https://wisemodel.cn/models/MCG-NKU/PhotoMaker（模型地址）

大家都可以在wisemodel社区体验试玩，操作也非常简单，分为 4 步：

首先是上传一张图片，一张就可以了，不过多张效果会更好，上传图片中的人脸应该占据图像的大部分。

第二步是输入文本提示，操作过程中确保使用触发词 img，例如 man img、woman img 或 girl img。

第三步是选择喜欢的风格模板（内置有十多种）。

最后一步是单击 Submit 按钮，等待生成。

以上生成过程如果有操作不当的地方，PhotoMaker 都会进行提示，不用怕自己操作失误。

https://wisemodel.cn/space/gradio/photomaker（体验地址）

Yann LeCun 身穿钢铁侠的衣服、戴着酷酷的墨镜面无表情地注视着你，一身古装在故宫门前打卡留念……其本人表示最喜欢左下角的文艺复兴风格的画。

PhotoMaker概述

PhotoMaker的新型个性化文本到图像生成方法，能够高效地生成逼真的照片，同时保持输入图像的身份（ID）信息。PhotoMaker的核心特点是能够通过堆叠多个输入ID图像的嵌入（stacked ID embedding）来保留ID信息，这种方法不仅能够全面地封装同一输入ID的特征，还能够整合不同ID的特征以便于后续的融合。这种方法为生成多样化的个性化图像提供了可能，例如改变属性、将艺术作品或旧照片中的人物带入现实，或者进行身份混合。

PhotoMaker在多个应用场景中表现出色，包括：

属性更改：改变输入人物的属性，如配饰和表情。

艺术作品/旧照片到现实：将艺术作品或旧照片中的人物带入现实，生成逼真的照片。

身份混合：将不同人物的特征混合，生成新的定制ID。

PhotoMaker方法

PhotoMaker通过堆叠ID嵌入（Stacked ID Embedding），将多个输入ID图像的嵌入信息综合起来。首先，使用CLIP图像编码器从每个输入ID图像中提取图像嵌入。然后，通过多层感知器（MLP）将这些嵌入与对应的类别词的特征向量进行融合，以形成更全面的ID表示。接下来，将所有融合后的嵌入沿长度维度进行拼接，创建一个统一的堆叠ID嵌入，不仅包含了每个输入ID图像的详细信息，而且能够适应性地整合到扩散模型中。在生成过程中，堆叠ID嵌入被用作文本嵌入的一部分，通过交叉注意力机制与文本提示一起，指导模型生成新的、个性化的图像。这使得PhotoMaker在不牺牲效率的情况下，生成具有高度身份保真度和多样性的图像，同时提供了对生成图像的灵活控制。

PhotoMaker的数据构建过程旨在创建一个以ID为导向的人类图像数据集。首先，从公开数据源，如VoxCeleb和VGGFace等，下载大量名人图片，并通过RetinaNet进行人脸检测和筛选，确保图片质量，之后，使用ArcFace进行ID验证，以识别和选择属于同一身份的脸部区域。然后，通过Mask2Former进行全景分割，精确裁剪出脸部区域。最后，利用BLIP生成描述性标题，并结合依赖解析模型和CLIP分数来确定与身份相关的类别词，为每个图像提供准确的文本描述。

PhotoMaker实验及DEMO

PhotoMaker在属性更改方面表现出色，能够根据文本提示改变输入人物的发型、服装等属性，同时保持高ID保真度。

在将艺术作品或旧照片中的人物带入现实的场景中，PhotoMaker能够生成逼真的现代照片，而其他方法如DreamBooth和SDXL在这方面存在困难。

PhotoMaker在改变年龄或性别的应用中，能够更准确地捕捉角色的特征信息，实现更高质量的生成结果。

在身份混合方面，PhotoMaker能够将不同ID的特征有效融合，形成新的ID，而其他方法则难以实现这一功能。

PhotoMaker在ID保真度、生成质量、多样性和文本一致性方面获得了用户的高度评价，显示出其在个性化图像生成领域的潜力和实用性。

结论

PhotoMaker作为一种高效的个性化文本到图像生成方法，成功地在生成逼真人类照片的同时，保持了高效率、良好的身份（ID）保真度和灵活的文本控制能力。PhotoMaker通过堆叠ID嵌入技术，允许用户在不进行额外微调的情况下，快速生成具有特定身份特征的个性化图像。这种方法不仅在多个应用场景中表现出色，如属性更改、艺术作品人物现实化、身份混合等，而且在消融研究中展示了其对输入图像数量和训练策略的敏感性，从而优化了模型性能。

始智AI wisemodel

关注

43
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
体验 | Yann LeCun肯定的照片生成模型，PhotoMaker上线wisemodel社区

首先，从公开数据源，如VoxCeleb和VGGFace等，下载大量名人图片，并通过RetinaNet进行人脸检测和筛选，确保图片质量，之后，使用ArcFace进行ID验证，以识别和选择属于同一身份的脸部区域。PhotoMaker的核心特点是能够通过堆叠多个输入ID图像的嵌入（stacked ID embedding）来保留ID信息，这种方法不仅能够全面地封装同一输入ID的特征，还能够整合不同ID的特征以便于后续的融合。：将艺术作品或旧照片中的人物带入现实，生成逼真的照片。
复制链接

扫一扫