个性化视觉指令调优:让多模态大模型“认脸”

人工智能咨询培训老师叶梓 转载标明出处

多模态大模型存在一个明显的局限性:它们能够进行一般性的对话,但在针对特定个体的个性化对话中却表现不佳。这种“面孔失认症”限制了MLLMs在个性化场景中的应用,例如移动设备上的定制化视觉助手,或需要识别家庭成员的家庭机器人。

为了解决这一问题,来自香港科技大学和伊利诺伊大学厄巴纳-香槟分校的研究团队提出了一种名为个性化视觉指令调优(Personalized Visual Instruction Tuning,简称PVIT)的新方法。PVIT是一个新颖的数据策划和训练框架,旨在使MLLMs能够在图像中识别目标个体,并进行个性化且连贯的对话。

想要掌握如何将大模型的力量发挥到极致吗?2024年10月26日叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。

留言“参加”即可来叶老师的直播间互动,1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。互动交流,畅谈工作中遇到的实际问题。

PVIT框架

PVIT框架综合了多种类型的个性化训练数据。框架的运作分为三个主要阶段(图1):1) 视觉概念策划,2) 双级文本信息提取与融合,3) PVIT数据集生成。在双级文本信息提取与融合阶段,MLLMs首先生成整体信息和个人信息,然后整合它们以获得更详细和上下文准确的信息。在PVIT数据集生成阶段,LLMs基于提取的文本信息创建问答对模板,用选定的名字填充以构建训练数据。

视觉概念策划阶段中,基于场景图像,制定了收集个体图像的策略。首先,应用开放词汇量对象检测器,例如GroundingDino,通过提供图像和文本提示“一个人”来定位图像中的个体。然后,对于每个检测到的人,使用面部检测器来识别和定位相应的面部。这些个体及其面部的图像将被存储,以供后续阶段使用。没有检测到面部的个体将在此过程中被排除。

接下来进行个体增强,为每个图像生成<个体,面部>对的列表。每个场景图像中的人可以通过其相应的面部来引用。然而,实践中用作个体参考的面部通常与场景图像中的面部不同。为了引入更多的人脸变化,并增强大模型识别个体的能力,采用了身份保留图像生成器PhotoMaker来增强个体,产生基于输入面部的、不同角度和上下文的同一个体的图像。这些增强的图像随后可以作为原始场景图像中个体的参考。

双级文本信息提取与融合阶段中,为了构建针对场景图像中特定个体的个性化对话,不仅需要提取每个个体的特征,还需要捕捉他们与周围上下文的互动。这通过采用双级信息提取和融合方法来实现。

在个人信息提取中,由于当前大模型无法直接提供包含多个个体的场景图像中指定个体的具体特征,因此将重点放在每个个体上,通过向大模型提供裁剪后的图像来创建个人信息。由于裁剪后的图像只包含一个个体,大模型生成的描述将只关注该个体的特征,捕获更细粒度的个性化细节。

整体信息提取中,利用大模型的现有描述能力来提供场景图像的整体信息。特别强调描述图像中的主要角色,例如图1中描述“一个男人”和“一个女孩”的整体信息。这种方法旨在提供更多的“特征锚点”,以便于后续个人信息和整体信息的融合。

在双级信息融合中,将提供上下文知识的整体信息和捕获个体特征的个人信息结合起来。这是通过将个人信息与整体信息中角色的描述进行匹配来完成的,从而得到一个融合的描述,描述特定个体如何与上下文互动。这种双级融合信息作为生成更详细和上下文准确的个性化对话的基础。

PVIT数据集生成阶段中,利用前两个阶段提取的视觉概念和与每个个体相关的文本信息,现在可以构建个性化视觉指令调优(PVIT)数据集。PVIT数据集主要由三个组成部分:个性化多模态前缀、场景图像和个性化问答。

在个性化多模态前缀中,每个输入个体由多模态前缀表示,这是个人图像和个性化介绍的组合。个人图像可以是原始图像裁剪的头像,也可以是Photomaker生成的照片。个性化介绍包含与个人相关的基本知识,其中考虑了个人的名字。为了增强模型对新个体的泛化能力和鲁棒性,设计了名称交换策略,通过随机选择名字并替换占位符<name>来构建训练数据集。这个过程可以多次重复,以增加训练数据中名称的多样性。

为了更好地与用户在日常对话中称呼他人的方式对齐,不仅通过他们的名字介绍个体,还处理涉及人称代词的情况。例如,如果问题包含“我的爸爸”,响应应该通过使用“你的爸爸”进行调整。为了有效地处理这些情况,引入了包含人称代词示例的训练数据。

为了确保模型真正学会准确识别个体,引入了对抗性输入,以挑战模型正确处理无法回答的问题的能力。具体来说,生成了对抗性名称映射和对抗性图像映射两种类型的对抗性输入,以确保模型能够正确处理缺失个体的情况。

场景图像的设计旨在使模型能够准确识别前缀中提供的特定个体。为此目的设计了两种类型的场景图像:原始完整图像和通过连接裁剪的个体图像创建的复合图像。

个性化问答的创建利用了从上一阶段提取的双级信息,将视觉信息转化为文本,从而可以利用大模型的高级推理能力来创建个性化对话。为此精心设计了提示和上下文示例,以使用大模型生成以下任务的数据:个性化描述、个性化自由形式问答和个性化多项选择问答。与通用的图像描述和VQA相比,个性化对话为当前大模型提出了新的挑战,因为它们不仅需要识别场景图像中的感兴趣个体,而且还需要将它们适当地融入生成的响应中。总共创建了300万个个性化对话的训练实例,称为PVIT-3M。该策划的数据集包含多种类型的数据和难度级别。

使用P-Bench评估

尽管已有众多基准测试被提出以评估大模型的有效性,但还没有专门设计来评估它们个性化能力的基准测试。为了填补这一空白,提出了一个经过人工审核的高质量基准测试P-Bench,旨在全面评估MLLMs的个性化潜力。设计了多项选择(MC)问题和个性化图像描述查询作为评估手段。

多项选择(MC)问题中,设计了肯定(可回答)和对抗性(不可回答)问题,以检验大模型正确关联目标个体与场景图像中相应人物的能力。可回答问题包括以下类型:

  1. Crop:输入个体由图像中裁剪出的真实面部表示;
  2. Aug-In:使用Photomaker生成基于原始裁剪面部的个体增强照片;
  3. Aug-Sc-2和Aug-Sc-3:将两个或三个不同的裁剪个体图像连接成单个图像,替换原始场景图像,增加了准确识别个体的难度。 不可回答问题包括:
  4. Adv-name:问题涉及不在输入个体列表中的人,意味着大模型缺乏此人的知识;
  5. Adv-image:问题中提到的个体没有出现在场景图像中,意味着大模型无法视觉上识别此人。

图2展示了P-LLaVA结果的定性示例:每个示例包括用户的查询、输入个人照片和场景图像。当前的大模型未能识别感兴趣的人并进行个性化对话,而经过PVIT训练的模型则能够进行连贯准确的个性化对话。示例说明了可回答和不可回答的情况。对于可回答的情况,输入涉及单个或多个个体,模型结合前缀中的名字进行个性化响应。在不可回答的情况下,当前的大模型提供了错误的答案,而模型适当地拒绝并解释了原因。

表1展示了P-Bench上的MC问题。经过PVIT训练的P-LLaVA在各种问题类型上的显著优于其他MLLMs。值得注意的是,P-LLaVA在具有挑战性的回答任务和不可回答的查询上表现出色,而其他MLLMs则大幅失败。

描述性问题中,查询特定个体的描述,而不是一般描述。还设计了肯定和对抗性描述问题。肯定问题涉及场景图像中不同数量的人。随着场景图像中人物数量的增加,大模型正确识别感兴趣的人并产生准确描述的挑战性增加。对于描述性的评估,对可回答和不可回答问题采用不同的策略。对于可回答的问题,采用LongClip评估目标个体的图像与大模型生成的描述之间的相似性。对于不可回答的问题,计算大模型拒绝回答的百分比。

有效性展示

使用表1和表2中的MC问题和个性化描述进行评估。观察到当前SOTA MLLMs的以下现象:

  1. SOTA MLLMs在更复杂的输入(即MC问题的Aug-In、Aug-Sc-2和Aug-Sc-3,以及描述问题的场景图像中包含更多人)上的性能显著降低,表明它们在识别场景图像中的输入个体的能力和鲁棒性有限。
  2. 所有的MLLMs在不可回答的问题上大幅失败。它们仍然倾向于通过错误地将图像中的其他人视为感兴趣的人来回答问题。这是因为MLLMs从未被训练过拒绝回答这类不可回答的问题。
  3. 在使用PVIT对LLaVA进行微调后,P-Bench上所有问题类型都有显著的性能提升。具体为正面和不可回答的问题的性能都有所提高。值得注意的是,更复杂的场景图像上的性能提升更为显著。结果验证了提出的调整策略在提高模型个性化能力方面的有效性。

表3展示了MLLMs在包含不同数量人物的场景图像上的MC问题上的性能。SOTA MLLMs在包含更多人的场景图像上展示了下降的性能,由于准确识别感兴趣的特定个体的挑战。另一方面,经过训练的P-LLaVA在这些具有挑战性的情况下仍然高度准确,这验证了其准确识别感兴趣的人的能力。

表4中,面部增强使用PhotoMaker增加了输入个体的多样性,有效地增强了MLLM识别个体的能力;对抗样本对于使MLLM拒绝回答无法回答的问题至关重要。没有对抗样本,拒绝回答无法回答的问题的准确性迅速降至接近零。

数据规模和名称重复的影响中,上图展示了使用不同数量的数据进行训练后的评估准确性。水平轴表示数据单元的数量,每个单元包含8000个样本。当扩大训练数据集时,性能有显著提升。即使使用相同的数据模板,通过使用不同的名称重复构建数据,MLLM的性能也能够进一步增强,这验证了训练期间使用的名称多样性使个性化能力更加健壮和可推广到新个体。

论文链接:https://arxiv.org/abs/2410.07113

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值