ID-Aligner：通过奖励反馈学习提升身份保持文本到图像生成的性能

最新推荐文章于 2025-01-10 14:48:37 发布

人工智能大模型讲师培训咨询叶梓

最新推荐文章于 2025-01-10 14:48:37 发布

阅读量1.3k

点赞数 27

分类专栏：人工智能文章标签：人工智能 LLM github python 图像生成计算机视觉深度学习

本文链接：https://blog.csdn.net/weixin_44292902/article/details/138665804

版权

人工智能专栏收录该内容

312 篇文章

订阅专栏

在人工智能领域，文本到图像生成（Text-to-Image Generation，简称T2I）技术近年来取得了显著进展，特别是在身份保持的图像生成方面，即生成与特定人物参考图像相匹配的新图像。这一技术在AI肖像、广告、动画和虚拟试穿等领域具有广泛的应用前景。然而，现有方法在保持参考肖像的身份特征、提升生成图像的美学吸引力，以及与不同的生成模型兼容方面仍面临挑战。为了解决这些问题，中山大学和字节跳动公司的研究人员联合提出了一种名为ID-Aligner的新框架。ID-Aligner通过奖励反馈学习机制，旨在提升身份保持文本到图像生成的性能。该框架引入了两种关键的奖励机制：身份一致性奖励和身份美学奖励，以增强生成角色的身份保持和视觉吸引力。可轻松应用于 LoRA 和 Adapter 模型，实现一致的性能提升。

ID-Aligner的核心方法

ID-Aligner的核心方法是一种新颖的反馈学习框架，旨在增强身份保持文本到图像生成（ID-T2I）的性能。该方法通过两个关键的奖励机制——身份一致性奖励和身份美学奖励——来提升生成图像在身份保持和视觉吸引力方面的表现。以下是ID-Aligner方法的详细说明：

1. 身份一致性奖励（Identity Consistency Reward）

身份一致性奖励的目的是确保生成的图像在视觉上与参考肖像保持高度一致性。为了实现这一点，ID-Aligner采用了面部检测和面部识别技术来评估和提供反馈。

面部检测（Face Detection）：首先，使用面部检测模型（如FaceDet）定位生成图像和参考图像中的面部区域。
面部嵌入提取（Face Embedding Extraction）：然后，将检测到的面部区域输入到面部识别模型的编码器（FaceEnc）中，得到面部的嵌入表示。
相似性度量：计算生成面部和参考面部嵌入之间的余弦相似度，作为身份保持的度量。
奖励信号：将计算出的相似度作为奖励信号，用于后续的反馈调整过程。

2. 身份美学奖励（Identity Aesthetic Reward）

身份美学奖励关注生成图像的美学质量，包括人类对图像吸引力的偏好和角色结构的合理性。

人类偏好数据（Human Preference Data）：通过人类标注的偏好数据训练一个奖励模型，该模型能够对图像的吸引力打分。
结构奖励模型（Structure Reward Model）：此外，设计了一个结构奖励模型，该模型能够区分扭曲的肢体/身体结构和自然的人体结构。通过收集包含正面和负面样本的文本-图像对，并使用姿态估计模型生成未扭曲的人体结构作为正面样本，同时使用ControlNet生成扭曲的身体结构作为负面样本。
奖励模型融合：最终，身份美学奖励模型结合了基于人类标注的吸引力奖励和结构奖励，以引导模型生成既美观又结构合理的图像。

3. ID-保持反馈学习（ID-Preserving Feedback Learning）

在反馈学习阶段，ID-Aligner利用上述两种奖励模型来微调扩散模型，以更精确地匹配身份保持和美学偏好。

初始化和去噪：从一个随机的潜在变量开始，通过扩散模型逐步去噪，直到达到一个随机选择的时间步。
预测和奖励：在选定的时间步，使用去噪后的潜在表示直接预测生成图像，并应用奖励模型来评估偏好得分。
微调：根据奖励模型的反馈，调整扩散模型的参数，以更好地符合身份一致性和美学奖励的目标。

4. 算法实现

ID-Aligner为适配器（Adapter）模型和LoRA模型提供了两种不同的算法实现，以适应不同的文本到图像生成框架。

Adapter模型：使用预训练的适配器参数初始化模型，并通过奖励反馈学习来优化模型，特别关注身份一致性。
LoRA模型：通过在LoRA训练中应用ID奖励，提高了身份适应的效率，尤其是在适配到更大模型（如SDXL）时。

通过这些方法，ID-Aligner不仅提升了生成图像的身份保持度，还增强了图像的美学吸引力，实现了在不同身份保持文本到图像生成任务中的卓越性能。

实验设计与结果

实验设计部分旨在验证ID-Aligner框架在身份保持文本到图像生成（ID-T2I）任务中的有效性。以下是实验设计的关键方面：

数据集准备

训练数据集：研究者们构建了一个专门的肖像数据集，用于ID-T2I的训练。他们使用了MTCNN面部检测器从LAION数据集中筛选出超过200,000张含有面部的图像。
适配器时尚训练：对于适配器模型的训练，每张面部图像被裁剪并用作参考身份。

训练细节

Adapter模型：使用稳定扩散模型v1-5和SDXL作为基础文本到图像生成模型，并采用IP-Adapter作为基线模型。训练时，只更新适配器参数，以确保与其他相同结构的模型兼容。
LoRA模型：对于LoRA模型，收集了每个身份的5张图片，并在训练中使用桶适应分辨率。

推理细节

DDIM调度器：在推理过程中，使用DDIM调度器进行图像生成，采样20步。

评估指标

面部相似度分数：评估生成面部与参考面部之间的相似度。
DINO分数：评估生成图像与参考图像之间感知表示的相似度。
CLIP-I：评估生成图像与参考图像之间的语义相似度。
CLIP-T：评估文本提示和生成图像之间的语义相似度

实验结果表明，ID-Aligner在多种评估指标上均优于现有方法，包括面部相似度、DINO分数、CLIP-I分数和LAION-Aesthetics分数。这些指标分别衡量了生成图像与参考图像之间的面部相似度、整体主题一致性、语义相似度和美学质量。此外，ID-Aligner还展现出了良好的泛化能力，能够在不同的基础T2I模型上实现性能提升。

为了全面评估ID-Aligner，研究者们还开展了用户研究，邀请用户根据文本忠实度、图像质量和面部相似度等标准对生成的图像进行投票。结果显示，尽管InstantID在面部相似度方面得分最高，ID-Aligner在图像质量和文本图像一致性方面获得了更高的评价，展现了均衡的性能。

ID-Aligner的提出，不仅在学术上为扩散模型与其他专家模型（如面部识别模型）的整合提供了基础框架，而且在实际应用中也具有巨大的变革潜力。其生成的高保真度人物图像为娱乐、肖像、广告等行业带来了创新的机遇。然而，研究者们也指出了技术的潜在伦理问题，包括隐私保护、技术滥用和虚假信息的传播等，强调了制定和遵守严格的伦理准则的重要性。

ID-Aligner通过其创新的奖励反馈学习机制，成功提升了身份保持文本到图像生成的性能，为未来相关技术的发展和应用奠定了坚实的基础。

论文链接：https://arxiv.org/abs/2404.15449

项目地址：https://idaligner.github.io/