【论文笔记】ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation

Abstract

本文对于根据人类反馈学习与提升文生图模型提出了全面的解决方案。

构建了ImageReward——第一个通用的文本到图像的人类偏好奖励模型,有效地编码人类的偏好。该训练基于我们的系统注释pipeline,包括评级和排名,迄今为止收集了137k个专家比较。

人类的评价方面,Image Reward优于现有的评分模型和指标,使其成为评估文本生成图像的一个有前途的自动指标。在此基础上,提出了奖赏反馈学习(Reward Feedback Learning, ReFL),这是一种针对评分者优化扩散模型的直接调节算法。自动评价和人工评价都支持ReFL相对于对比方法的优势。

github仓库

1 Introduction

文生图面临的主要挑战是将模型与人类偏好对齐。因为预训练分布是有噪声的,并且与实际的用户prompt分布不同。固有的差异导致了生成图像中的几个有据可查的问题,包括但不限于:

  • 文本-图像对齐:未能准确刻画文本prompt中所描述对象的所有数字、属性、优先级和关系,如图1(a)(b)所示。
  • 身体问题:人体或动物的身体部位会出现扭曲、不完整、重复或异常,如图1(e)(f)所示。
  • 人类审美:偏离人类对审美风格的平均或主流偏好,如图1©(d)所示。
  • 不合适的与偏见:具有危害性、暴力性、性、歧视性、非法性或造成心理不适的内容,如图1(f)所示。

![[Pasted image 20240518171022.png]]

然而,这些普遍存在的挑战很难仅仅通过改进模型架构和预训练数据来解决。

NLP领域中,研究人员采用了来自人类反馈的强化学习(reinforcement learning from human feedback, RLHF)来向着人类倾向引导LLM。
该方法基于学习一个奖励模型(reward model),从大量专家标注的模型输出结果比较,来捕获人类倾向。
尽管注释是有效的,但注释过程可能是昂贵的、具有挑战性,需要花费数月的时间来建立标记标准,招募和培训专家,验证响应,并最终产生奖励模型。

贡献
基于真实世界的用户prompt和响应的模型输出,提出并发布了第一个通用的文本到图像的人类偏好奖励模型:ImageReward,并在总共137k对专家比较上进行了训练和评估。在此基础上,进一步研究改进了扩散生成模型的直接优化方法ReFL。
![[Pasted image 20240518194328.png]]

图2:ImageReward和ReFL的总结。
(上部)ImageReward的标注和训练,包括数据收、标注和偏好学习
(下部)ReFL利用ImageReward的反馈,在一个随机的后期去噪步骤直接优化扩散模型

本文贡献如下:

  • 系统识别了文本到图像的人类偏好标注所面临的挑战,据此设计了适合文本到图像的人类偏好标注过程,建立了量化评估和标注人员培训的标准,优化了标注经验,确保了质量验证。构建了文本到图像的对比数据集,用于训练基于pipeline的ImageReward模型,总体架构如图2所示。
  • 通过广泛分析和实验,证明了Image Reward模型在理解文本生成图像中的人类偏好方面优于现有的文本图像评分方法,如CLIP、Aesthetic、BLIP。ImageReward也被证明可以显著缓解上述问题,为人类偏好如何集成到生成模型中提供了有价值的见解。
  • 认为ImageReward可以作为一个很有前途的文本到图像的自动评价指标。与FID等相比,ImageReward与人类偏好排序保持一致,在模型和样本之间具有更高的区分性。
  • 提出了奖励反馈学习(Reward Feedback Learning, ReFL),根据人类偏好分数调节扩散生成模型。本文对ImageReward在后期去噪步骤中的质量可识别性的独特见解允许对扩散模型进行直接的反馈学习,而扩散模型不会为它们的生成提供任何可能性。大量的自动和人工评估证明了ReFL相对于现有方法的优势,包括数据增强和损失重参数化。

2 ImageReward: Learning to Score and Evaluate Human Preferences

ImageReward是通过一个涉及数据收集和专家人工标注的系统pipeline来构建的,基于该流水线,实现了RM的训练,并得到了Image Reward。

2.1 Annotation Pipeline Design

Prompt Selection and Image Collection

该数据集利用了来自DiffusionDB数据集的真实用户prompt的多样化选择。为了保证选择的prompt的多样性,采用了一种基于图的算法,该算法利用了基于语言模型的prompt相似度。这个选择产生了10000个候选prompt,每个提示伴随着4到9个DiffusionDB采样的图像,从而产生了177304个标记的候选对。

Human Annotation Design

本文的标注pipeline包括了prompt标注阶段(包含分类prompt和识别问题prompt),以及文本-图像评分prompt,其中图像根据对齐程度、真实程度、无害程度进行评分。随后,标注者按照偏好顺序对图像进行排序。为了管理排名中的潜在矛盾,在注释文档中提供了权衡。
本文的标注系统由三个阶段组成:prompt标注、图文评分和图像排序。系统截图如图8所示。标注人员是与专业数据标注公司合作招募的,其中大多数人至少受过大学水平的教育。为保证质量,同时聘请质量检查人员对每个注释进行双重检查,无效的注释重新分配用于重新标注。

Human Annotation Analysis

经过两个月的标注,收集了8878条prompt,产生了136892个比较对。

2.2 RM Training

人类的评价是人类对合成图像偏好的试金石,但受限于人工成本,难以规模化推广。目标是基于标注对人类偏好进行建模,可以使虚拟评价者摆脱对人类的依赖。

和对语言模型使用奖励模型进行训练相似,本文将偏好标记为排名。对于同一个prompt T T T(从最好到最坏记为 x 1 , x 2 , ⋯   , x k x_1,x_2,\cdots,x_k x1,x2,,xk),有 k ∈ [ 4 , 9 ] k\in[4,9] k[4,9]个图像进行排序,最多有 C k 2 C_k^2 Ck2对图像两两之间没有任何关系。对于每次比较,如果 x i x_i xi更好, x j x_j xj更差,则损失函数可以表示为:
loss ( θ ) = − E ( T , x i , x j ) ∼ D [ log ⁡ ( σ ( f θ ( T , x i ) − f θ ( T , x j ) ) ) ] (1) \text{loss}(\theta)=-\mathbb{E}_{(T,x_i,x_j)\sim\mathcal{D}}[\log(\sigma(f_\theta(T,x_i)-f_\theta(T,x_j)))]\tag{1} loss(θ)=E(T,xi,xj)D[log(σ(fθ(T,xi)fθ(T,xj)))](1)
其中 f θ ( T , x ) f_\theta(T,x) fθ(T,x)是prompt T T T和生成图像 x x x的偏好模型的标量值。

训练机制
使用BLIP作为ImageReward的backbone,因为它在初步实验中优于传统的CLIP。我们提取图像和文本特征,并将其与交叉注意力相结合,使用MLP生成一个用于偏好比较的标量。

训练ImageReward很难。观察到快速收敛和随之而来的过拟合,损害了性能。为了解决问题,冻结了一些backbone transformer层的参数,发现适当数量的固定层提高了ImageReward的性能。
ImageReward还表现出对训练超参数的敏感性,如学习率和批次大小。基于验证机和grid search,确定了最优数值。

2.3 As Metric: Re-Evaluating Human Preferences on Text-to-Image Models

训练文生图模型是困难的,但合理评估模型是更困难的。FID能否满足需求存在很大的疑问:

  • 零样本使用:由于生成模型现在主要以零样本的方式被公众使用,而没有微调,微调后的FID可能无法真实反映模型在实际使用过程中的实际性能。此外,尽管在最近的趋势中采用了零样本FID,在一些模型的预训练数据中可能存在MS-COCO的泄露,使其成为一个潜在的不公平的设置。
  • 人类偏好:FID衡量的是生成图像和参考真实图像之间的平均距离,因此在评价中无法包含对文生图至关重要的人类偏好。此外,FID依赖于整个数据集的平均值来提供准确的评估,而在许多情况下,需要度量作为单张图像的选择器。

鉴于这些挑战,提出ImageReward作为一种有前景的零样本自动评价指标,用于文生图模型比较和个体样本选择。

更好的跨模型人体对齐
在6个流行的高分辨率可用的文生图模型中进行了研究人员标注:CogView 2、Versatile Diffusion(VD)、Stable Diffusion(SD)1.4和2.1-base、DALL-E2、Openjourney,识别不同度量指标与人类的对齐关系。

抽样100个真实用户测试prompt进行对齐测试,每个模型产生10个输出作为候选结果。为了比较这些模型,首先从每个模型在每个prompt上的10个输出中挑选最好的图像,然后标注人员根据2.1中描述的排序规则,为每个prompt对来组不同的模型的图像进行排序。将所有标注者的标注进行聚合,并将每个模型的最终胜率计算到其他所有模型的胜率。

在模型和样本之间具有更好的区分性
另一个优点是,与CLIP相比,观察到ImageReward更能区分个体样本之间的质量。图3展示了ImageReward和CLIP在每个模型1000代上的得分分布箱线图。
![[Pasted image 20240518204341.png]]

图3:不同生成模型(异常值被丢弃)的ImageReward和CLIP评分的正态分布,ImageReward的评分与人咧偏好一致性较好,具有较高的区分度。

使用每个模型的ImageReward和CLIP评分的最小值和最大值将分布标准化为 [ 0.0 , 1.0 ] [0.0,1.0] [0.0,1.0],并舍弃异常值。结果表明,ImageReward在每个模型的得分都比CLIP的得分具有更大的四分位数差距,这意味着ImageReward可以很好区分彼此的图像质量。
此外,在模型之间的比较中,发现ImageReward得分的中位数也与表1中的人类排名大致相符。与此相反,CLIP的中位数并不能反应这一性质。

3 ReFL: Reward Feedback Learning Improves Text-to-Image Diffusion

尽管Image Reward可以从许多prompt中挑选出高度人类偏好的图像,但是在实际应用中,生成-过滤范式是昂贵且低效的,因此,寻求改进文生图模型,特别是流行的潜在扩散模型,以允许在单次或极少数尝试中进行高质量的生成。

挑战
NLP领域中,研究人员使用强化学习算法来指导语言模型与人类偏好保持一致。但是不同于语言模型,潜变量扩散模型(LDM)的多步去噪生成不能为其生成提供似然,因此无法使用相同的RLHF(Reinforcement Learning from Human Feedback)。在LDM的推理过程中,一个潜在的类似方法是分类器指导技术。尽管如此,这仅用于推理并使用必须在含噪中间潜变量上训练的分类器,这自然与RM的标注相矛盾,其中图像需要完全去噪,以便人类标记正确的偏好。一些并行工作提出了一些替代的间接解决方案,如使用RMs来过滤数据集以微调,或根据它们的质量来调整训练样本的二次加权损失。然而,这些数据导向的方法实际上是间接的。它们在很大程度上依赖于适当微调数据分布,最终只能温和地改进LDM。

ReFL: 观察与解决
根据RM(如ImageReward),试图发展一种直接优化方法来改进LDM。沿着去噪步骤(本文例子中是40)观察ImageReward分数,得出了一个有趣的见解,即当在步骤 t t t直接预测 x 0 ′ x_0' x0时(与真实的从 x t → x t − 1 → ⋯ x 0 x_t\rightarrow x_{t-1}\rightarrow\cdots x_0 xtxt1x0过程得到的潜变量 x 0 x_0 x0不同):

  • t ≤ 15 t\leq 15 t15时,ImageReward分数对所有代都是一致偏低的。
  • 15 < t ≤ 30 15<t\leq 30 15<t30时,高质量的图像开始脱颖而出,但总体而言,无法根据当前的ImageReward分数清晰判断所有世代的最终质量。
  • t > 30 t>30 t>30时,不同世代的图像的ImageReward分数一般是可区分的。
    ![[Pasted image 20240518211515.png]]

图4:沿着去噪步骤,用不同的生成种子对一个prompt进行ImageReward评分。在40个步骤中,经过30个步骤后,最终的图像质量变得可识别。

得出结论,经过30步去噪后的图像的 x 0 ′ x_0' x0的ImageReward分数,不必要是最后一步,可以作为可靠的反馈来改进LDM。

因此,提出一种直接微调LDM的算法,通过将RM的分数视为人类偏好损失,在去噪过程中反向传播梯度到随机选择的后一步 t t t。随机选择 t t t而不是使用最后一步的原因是,如果只保留最后一步的去噪的梯度,训练被证明非常不稳定,结果很差。在实际应用中,为了避免快速过拟合和稳定微调,采用二次加权的ReFL损失,并结合预训练损失进行正则化。

最终损失函数可写作:
L reward = λ E y i ∼ Y ( ϕ ( r ( y i , g θ ( y i ) ) ) ) (2) \mathcal{L}_\text{reward}=\lambda\mathbb{E}_{y_i\sim\mathcal{Y}}(\phi(r(y_i,g_\theta(y_i))))\tag{2} Lreward=λEyiY(ϕ(r(yi,gθ(yi))))(2)
L pre = E ( y i , x i ) ∼ D ( E E ( x i ) , y i , ϵ ∼ N ( 0 , 1 ) , t [ ∣ ∣ ϵ − ϵ θ ( z t , t , τ θ ( y i ) ∣ ∣ 2 2 ] ) (3) \mathcal{L}_\text{pre}=\mathbb{E}_{(y_i,x_i)\sim\mathcal{D}}(\mathbb{E}_{\mathcal{E}(x_i),y_i,\epsilon\sim\mathcal{N}(0,1),t}[||\epsilon-\epsilon_\theta(z_t,t,\tau_\theta(y_i)||_2^2])\tag{3} Lpre=E(yi,xi)D(EE(xi),yi,ϵN(0,1),t[∣∣ϵϵθ(zt,t,τθ(yi)22])(3)
其中 θ \theta θ表示LDM的参数, g θ ( y i ) g_\theta(y_i) gθ(yi)表示具有参数 θ \theta θ的LDM通过prompt y i y_i yi生成的图像。

  • 7
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值