ID-Aligner:通过奖励反馈学习提升身份保持文本到图像生成的性能

在人工智能领域,文本到图像生成(Text-to-Image Generation,简称T2I)技术近年来取得了显著进展,特别是在身份保持的图像生成方面,即生成与特定人物参考图像相匹配的新图像。这一技术在AI肖像、广告、动画和虚拟试穿等领域具有广泛的应用前景。然而,现有方法在保持参考肖像的身份特征、提升生成图像的美学吸引力,以及与不同的生成模型兼容方面仍面临挑战。 为了解决这些问题,中山大学和字节跳动公司的研究人员联合提出了一种名为ID-Aligner的新框架。ID-Aligner通过奖励反馈学习机制,旨在提升身份保持文本到图像生成的性能。该框架引入了两种关键的奖励机制:身份一致性奖励和身份美学奖励,以增强生成角色的身份保持和视觉吸引力。可轻松应用于 LoRA 和 Adapter 模型,实现一致的性能提升。

ID-Aligner的核心方法

ID-Aligner的核心方法是一种新颖的反馈学习框架,旨在增强身份保持文本到图像生成(ID-T2I)的性能。该方法通过两个关键的奖励机制——身份一致性奖励和身份美学奖励——来提升生成图像在身份保持和视觉吸引力方面的表现。以下是ID-Aligner方法的详细说明:

1. 身份一致性奖励(Identity Consistency Reward)

身份一致性奖励的目的是确保生成的图像在视觉上与参考肖像保持高度一致性。为了实现这一点,ID-Aligner采用了面部检测和面部识别技术来评估和提供反馈。

  • 面部检测(Face Detection):首先,使用面部检测模型(如FaceDet)定位生成图像和参考图像中的面部区域。
  • 面部嵌入提取(Face Embedding Extraction):然后,将检测到的面部区域输入到面部识别模型的编码器(FaceEnc)中,得到面部的嵌入表示。
  • 相似性度量:计算生成面部和参考面部嵌入之间的余弦相似度,作为身份保持的度量。
  • 奖励信号:将计算出的相似度作为奖励信号,用于后续的反馈调整过程。

2. 身份美学奖励(Identity Aesthetic Reward)

身份美学奖励关注生成图像的美学质量,包括人类对图像吸引力的偏好和角色结构的合理性。

  • 人类偏好数据(Human Preference Data):通过人类标注的偏好数据训练一个奖励模型,该模型能够对图像的吸引力打分。
  • 结构奖励模型(Structure Reward Model):此外,设计了一个结构奖励模型,该模型能够区分扭曲的肢体/身体结构和自然的人体结构。通过收集包含正面和负面样本的文本-图像对,并使用姿态估计模型生成未扭曲的人体结构作为正面样本,同时使用ControlNet生成扭曲的身体结构作为负面样本。
  • 奖励模型融合:最终,身份美学奖励模型结合了基于人类标注的吸引力奖励和结构奖励,以引导模型生成既美观又结构合理的图像。

3. ID-保持反馈学习(ID-Preserving Feedback Learning)

在反馈学习阶段,ID-Aligner利用上述两种奖励模型来微调扩散模型,以更精确地匹配身份保持和美学偏好。

  • 初始化和去噪:从一个随机的潜在变量开始,通过扩散模型逐步去噪,直到达到一个随机选择的时间步。
  • 预测和奖励:在选定的时间步,使用去噪后的潜在表示直接预测生成图像,并应用奖励模型来评估偏好得分。
  • 微调:根据奖励模型的反馈,调整扩散模型的参数,以更好地符合身份一致性和美学奖励的目标。

4. 算法实现

ID-Aligner为适配器(Adapter)模型和LoRA模型提供了两种不同的算法实现,以适应不同的文本到图像生成框架。

  • Adapter模型:使用预训练的适配器参数初始化模型,并通过奖励反馈学习来优化模型,特别关注身份一致性。
  • LoRA模型:通过在LoRA训练中应用ID奖励,提高了身份适应的效率,尤其是在适配到更大模型(如SDXL)时。

通过这些方法,ID-Aligner不仅提升了生成图像的身份保持度,还增强了图像的美学吸引力,实现了在不同身份保持文本到图像生成任务中的卓越性能。

实验设计与结果

实验设计部分旨在验证ID-Aligner框架在身份保持文本到图像生成(ID-T2I)任务中的有效性。以下是实验设计的关键方面:

数据集准备
  • 训练数据集:研究者们构建了一个专门的肖像数据集,用于ID-T2I的训练。他们使用了MTCNN面部检测器从LAION数据集中筛选出超过200,000张含有面部的图像。
  • 适配器时尚训练:对于适配器模型的训练,每张面部图像被裁剪并用作参考身份。
训练细节
  • Adapter模型:使用稳定扩散模型v1-5和SDXL作为基础文本到图像生成模型,并采用IP-Adapter作为基线模型。训练时,只更新适配器参数,以确保与其他相同结构的模型兼容。
  • LoRA模型:对于LoRA模型,收集了每个身份的5张图片,并在训练中使用桶适应分辨率。
推理细节
  • DDIM调度器:在推理过程中,使用DDIM调度器进行图像生成,采样20步。
评估指标
  • 面部相似度分数:评估生成面部与参考面部之间的相似度。
  • DINO分数:评估生成图像与参考图像之间感知表示的相似度。
  • CLIP-I:评估生成图像与参考图像之间的语义相似度。
  • CLIP-T:评估文本提示和生成图像之间的语义相似度

实验结果表明,ID-Aligner在多种评估指标上均优于现有方法,包括面部相似度、DINO分数、CLIP-I分数和LAION-Aesthetics分数。这些指标分别衡量了生成图像与参考图像之间的面部相似度、整体主题一致性、语义相似度和美学质量。此外,ID-Aligner还展现出了良好的泛化能力,能够在不同的基础T2I模型上实现性能提升。

为了全面评估ID-Aligner,研究者们还开展了用户研究,邀请用户根据文本忠实度、图像质量和面部相似度等标准对生成的图像进行投票。结果显示,尽管InstantID在面部相似度方面得分最高,ID-Aligner在图像质量和文本图像一致性方面获得了更高的评价,展现了均衡的性能。

ID-Aligner的提出,不仅在学术上为扩散模型与其他专家模型(如面部识别模型)的整合提供了基础框架,而且在实际应用中也具有巨大的变革潜力。其生成的高保真度人物图像为娱乐、肖像、广告等行业带来了创新的机遇。然而,研究者们也指出了技术的潜在伦理问题,包括隐私保护、技术滥用和虚假信息的传播等,强调了制定和遵守严格的伦理准则的重要性。

ID-Aligner通过其创新的奖励反馈学习机制,成功提升了身份保持文本到图像生成的性能,为未来相关技术的发展和应用奠定了坚实的基础。

论文链接:https://arxiv.org/abs/2404.15449

项目地址:https://idaligner.github.io/

  • 27
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
根据引用和引用的信息,出现了一个文件不存在的错误"-bash: ./montreal-forced-aligner/bin/mfa_align: No such file or directory"。这种错误通常是因为文件路径不正确或文件确实不存在导致的。 首先,请确保你输入的文件路径是正确的。检查指定的路径是否正确,并在路径中使用正确的斜杠(/)和双引号("")来确保路径的准确性。 如果你确定文件路径是正确的,那么可能是安装的软件包不匹配导致的。根据引用的信息,可以尝试更新或重新安装kaldi包来解决这个问题。 此外,根据引用的信息,还可以尝试安装libatlas3-base软件包,并使用export命令来设置LD_LIBRARY_PATH环境变量。确保将路径替换为你自己的虚拟环境路径。如果需要永久写入,可以修改bash配置文件。 总结起来,如果你遇到了"-bash: ./montreal-forced-aligner/bin/mfa_align: No such file or directory"的错误,你可以按照以下步骤进行排查: 1. 确保文件路径是正确的,检查斜杠和双引号的使用。 2. 更新或重新安装kaldi包。 3. 安装libatlas3-base软件包,并设置LD_LIBRARY_PATH环境变量。 希望这些信息能够帮助你解决问题。如果问题仍然存在,请提供更多详细信息,以便我们能够更好地帮助你解决问题。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Montreal Forced Aligner (MFA)安装教程及异常处理](https://blog.csdn.net/suiyueruge1314/article/details/120470198)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值