51c视觉~合集42

我自己的原文哦~    https://blog.51cto.com/whaosoft/13035317

#VideoAnydoor

港大达摩院【视频AI任意门】,向视频无缝传送物体,同时支持准确动作控制

本文中,香港大学与阿里达摩院联合提出视频任意门模型,该方法支持将目标准确插入指定视频中。在该过程中,提出的方法可以准确保持参考目标的身份信息,同时根据给定轨迹进行精准动作控制,实现高保真的视频目标插入。提出的方法无需微调便可应用于包含视频目标交换,视频换脸,视频虚拟换衣,视频多区域编辑等多种领域,具有广泛的应用价值。

论文标题:VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control

项目主页:https://videoanydoor.github.io/

论文链接:https://arxiv.org/pdf/2501.01427

视频介绍:https://www.youtube.com/watch?v=4YYGejumDfU

,时长01:41

图片

效果展示

我们首先展示方法在目标插入任务上的性能,实验结果表明方法可以将给定对象无缝插入到给定视频中,并精确控制其运动及位置。该方法具有较强的应用前景,可以将视频编辑的门槛大大降低,让更多创作者可以根据自己的创意快速实现内容创作。

如下所示,用户可以让美丽的蝴蝶轻盈地飞到花朵上;哈士奇可以和主人在雪中同步起跳;海鸥在广阔的海面上自由翱翔;车辆潇洒地转弯....

图片

insert_fly

图片

insert_bird

图片

insert_dog

图片

insert_car

图片

insert_fish

图片

insert_fish2

图片

insert_cat

图片

insert_car2

另外,VideoAnydoor支持向视频中的某个目标插入图案,实验结果表明,插入的图案能够非常自然地融入到背景中(例如向人的衣服上贴上LV的图案),能够展现出与背景一致的和谐度,同时具有良好的帧间一致性,显著提升了任务的生成质量。

图片

logo_insert0

图片

logo_insert1

图片

logo_insert2

随后我们展示了方法在视频虚拟换衣任务上的性能。作为目标插入的子任务,视频虚拟换衣对于细节保持上有着更为严格的要求。实验结果表明VideoAnydoor 能够精准地保留对象的外观细节,让每一个纹理、每一处图案、每一处色彩都清晰可见。同时,它还具备卓越的视频流畅性,让换衣后的视频如同自然拍摄一般,毫无卡顿与不自然之感。

图片

tryon1

图片

tryon2tryon3

此外,VideoAnydoor 支持视频多区域编辑,展现出许多未经过专门训练的强大能力,进一步证明其通用性和扩展性。这种多区域编辑能力为视频创作提供更大的灵活性和可能性。

图片

sconcat0_new

图片

sconcat1_new

除了上述结果外,我们在论文中也展示了更多VideoAnydoor编辑得到的结果,如下所示,编辑之后的结果可以准确地根据参考图像以及给定的运动轨迹,向视频中流畅地插入目标,具有较强的实际应用潜力。

图片

moreexample

方法介绍动机

作为视频编辑领域的重要方向,视频目标插入在实际场景中有着广泛的应用潜力。

该任务存在两个难点: 准确身份保持和精准动作控制。现有的方法(如AnyV2V或是ReVideo)大多采用两阶段编辑方式,即先用图像的定制化方法编辑第一帧,随后以第一帧作为条件生成后续帧。然而这种方式在生成的第一帧并不完美的情况,会导致整个视频出现严重的失真现象。

另外由于他们并没有向后续帧注入身份信息,因此这些帧中目标的身份以及动作常会出现明显瑕疵。因此我们在本文中旨在设计一种端到端零样本目标插入框架,可同时实现准确的身份信息保持和精准的目标动作控制。

图片

framework

模型结构

我们基于2D补全扩散模型并插入动作模块构建初始网络,同时利用DINOv2作为身份信息提取器实现初步身份保持,另外使用包围框作为粗粒度动作指导条件。

在将参考图输入该提取器之前,我们使用分割模型去除对应的背景区域以得到紧致的身份信息潜在编码。对于细粒度控制,我们采用交互友好的轨迹线作为控制条件,同时提出了一个像素包裹器根据用户想要的动作及姿态打包像素中包含的细节信息,实现外观信息和准确动作的同时建模。

最后我们引入了一个重加权重建损失以放大关键点带来的影响,并设计了一种图像和视频混合训练的策略来缓解因为缺少大量高质量数据带来的影响,实现高保真的目标插入。

推理过程中,用户只需提供一张参考图像,一个需要编辑的原视频,以及一个运动框轨迹或是运动框轨迹加关键点轨迹,我们的方法便可端到端自动完成对象插入及运动控制,无需额外微调,大大简化了视频编辑的流程。

像素包裹器

1. 轨迹采样: 在训练过程中,从视频中提取轨迹以提供运动条件是至关重要的。先前的工作表明,物体的运动可以通过关键点来控制。因此,如下图所示,我们首先将第一帧输入到 X-Pose中,以初始化后续轨迹生成的点。对于 X-Pose 未能检测到任何关键点的情况,我们使用网格对密集采样点进行稀疏化。我们凭经验发现,运动幅度较大的点对轨迹控制更有帮助。然而,这些点大多密集分布在某些区域,导致严重的信息冗余。因此,为了过滤掉不需要的点,我们首先执行非极大值抑制以过滤掉密集分布的点。然后,我们对每个点进行运动跟踪以获得它们的路径长度。然后,我们保留运动幅度最大的 N 个点,并使用相应的轨迹图作为控制信号。

图片

filtering

2. 动作注入: 一种简单的运动注入实现方法是像之前的方法,只训练一个类似的控制模块来注入运动条件。然而,这样的方案可能无法准确地插入具有期望运动和外观细节的物体,因为它与参考物体没有明确的语义对应关系。因此,物体可能会以不期望的姿势插入到视频中,导致前景区域出现严重失真。为了解决这个问题,我们输入一对轨迹图和对应的参考图像作为细粒度的指导。在该过程中,轨迹序列与关键点标注后的参考图对应的潜在编码分别输入两个交叉注意力模块进行语义感知融合。随后融合后的特征输入ControlNet提取多尺度特征输入扩散模型的各层中,实现细粒度外观信息建模及准确动作控制。​

3. 重加权: 为了进一步增强对身份和运动的细粒度建模,我们提出了一种重加权的扩散损失,它区分了轨迹周围区域与剩余区域的贡献。具体来说,我们放大轨迹周围区域的贡献,以增强主体和运动学习,同时对这些剩余的区域保留原始的扩散损失。

数据构造

用于训练的理想样本应当是“同一场景位置但包含不同物体”的视频对,但现有的数据集很难收集到这样的样本。

作为替代方案,我们从同一视频中抽取所有需要的数据。具体来说,对于一个视频,我们选取一个视频片段和一个与该片段距离最大的帧。

对于视频片段,我们生成框序列,并去除框区域以得到场景视频,未被掩码的视频可以用作训练的真实值。具体来说,在实现中我们使用扩展的边界框而不是紧密包围的边界框。

对于移动范围较小的框,我们使用框的并集作为最终框,以减少边界框对运动的影响。所有的训练数据如下图所示:

图片

trainingset

为了缓解高质量视频数据不足带来的问题,我们采用图像与视频一起进行联合训练。然而,直接重复图像会损害时间模块的判别性学习。相反,我们通过手动操作相机将图像增强为视频。

具体来说,我们从不同方向以等间隔随机平移/裁剪图像获得图像序列。然后,对图像序列进行双线性插值处理以增强视频的平滑度。虽然增强后的视频有利于外观变化的学习,但它们与真实视频的本质区别可能会损害运动学习。

因此,我们采用自适应时间步长采样,使不同模态的数据能够在去噪训练的不同阶段做出贡献。

效果对比

为了进一步凸显我们的方法在目标插入方面的优势,我们与目前最为优秀的方法进行了综合对比。

如下图所示,由于采用两阶段编辑范式,AnyV2V在编辑区域和未编辑区域都存在严重的内容失真问题。此外,由于使用文本作为控制信号,它的动作一致性较差。

对于 ReVideo 来说,也存在明显的编辑内容丢失情况,特别是在有较大运动的情况下。由于运动信号中缺乏语义信息,它对插入对象的姿态控制较差(蝴蝶以相反的姿态移动)。

相比之下,我们的 VideoAnydoor 可以有效地保留未编辑的内容,同时允许用户在编辑区域自定义运动。

图片

comparison

为了更加有力地验证我们所提出的方法能够准确地与给定的运动轨迹进行对齐,我们特意展示了同一目标在不同运动轨迹下的生成结果。

无论是柴犬起跳时的活力瞬间,转身时的灵动姿态,还是向前走时的坚定步伐,所有的结果都令人惊叹地展现出了良好的身份以及动作一致性。

同时,背景与柴犬的融合也达到了较高的和谐程度。我们的方法以其卓越的性能,为视频创作和处理带来了全新的可能,让每一个画面都成为艺术的杰作。

图片

differentmotion

最后为了验证每个模块对于最终性能的提升,我们进行了详细的消融实验。

如下所示,仅使用静态图像进行训练会损害模型的动作一致性,而只使用真实视频则会因为缺少足够的训练数据导致结果出现失真的情况,另外当移除我们提出的像素包裹器模块,插入的姿态和身份信息都出现了明显的错误。

当融合所有提出的模块时,VideoAnydoor可以取得最优秀的性能。

图片

ablationmodule

未来展望

无需微调,VideoAnydoor在多个不同的任务中展现出了巨大的潜力。然而现有的方法仍然难以处理复杂的图案,另外对于更为复杂的动作仍然存在可以提升的空间。

为此,我们计划探索设计更为有效的动作及身份注入模块,引入相关数据进行针对性训练,同时对于训练及推理效率问题,构建更为高效的结构,以便能够应对更为复杂的数据规模以及动态场景需求,从而全面推动模型性能与实用性的提升。

#人工智能和计算机视觉如何改变农业格局

农业一直是人类进步的关键,为我们提供维持我们生存的食物。然而,随着世界面临越来越多的挑战——从气候变化到全球人口增长——对更智能、更高效的农业实践的需求从未如此迫切。这就是人工智能和计算机视觉发挥作用的地方,它们改变了我们处理农业的方式并彻底改变了这个行业。无论是预测产量、检测疾病还是优化资源,人工智能都处于新农业革命的前沿。

人工智能和计算机视觉如何改变农业格局

    过去,农业是一个劳动密集型的过程,通常依赖于手工劳动和直觉。但现在,得益于人工智能计算机视觉,农业已进入一个新时代。人工智能技术正在帮助农民做出更明智的决策,减少浪费,提高生产力,并为农业打造更可持续的未来。

    以下是人工智能对各种作物产生影响的一些主要方式:

    1. 更智能的作物监测和产量预测

    人工智能正在改变农民监测农作物健康状况的方式。利用无人机、传感器和摄像头,人工智能可以持续扫描田地,以检测疾病、害虫或营养不足等问题。这些实时数据可帮助农民做出明智的决定,决定如何照料农作物以及何时收获。

    例如,人工智能模型可以分析苹果园的图像,以准确确定苹果的生长数量,并以惊人的准确度估算产量。同样,番茄种植者可以使用人工智能检测早疫病,这是一种真菌疾病,表现为叶子上的黑斑。早期检测至关重要,因为它可以防止疾病蔓延并影响整个作物。

  • 更好的产量预测:人工智能系统处理视觉数据和历史趋势,以提供准确的产量预测,帮助农民准备收获并更有效地规划资源。
  • 资源效率:人工智能有助于优化水、肥料和农药的使用,减少浪费,并确保只处理需要关注的区域。例如,人工智能可以检测出田地的哪些部分需要灌溉,防止过度使用并确保农作物获得适量的水。

    2. 自动化疾病和害虫检测

    农作物病虫害是农民面临的最具破坏性的挑战之一。传统上,检测和诊断这些问题需要数小时的人工检查。人工智能改变了这一切。通过图像识别和机器学习算法,人工智能模型可以比人眼更快、更准确地识别农作物中的疾病、害虫和压力迹象。

    例如,在番茄种植中, YOLO(You Only Look Once)等 AI 模型会分析植物图像,精确定位受早疫病或叶斑病等疾病影响的区域。该系统会用红色或蓝色方框突出显示感染部位,并提供诊断的置信度分数。这可以帮助农民立即采取行动,无论是修剪受感染的植物还是施用正确的杀菌剂。

  • 早期检测:人工智能模型可以在疾病最易治疗的最早阶段检测出疾病,从而降低农作物大规模爆发的风险。
  • 更快的决策:人工智能无需手动检查每株植物,而是可以快速扫描大面积区域,节省宝贵的时间,同时提供可操作的见解。

    3. 精准采收与质量控制

    一旦农作物可以收获,人工智能就会继续发挥作用,优化收获过程。对于苹果,人工智能模型可以检测哪些水果已经成熟并可以采摘,确保只收获最好的苹果,减少浪费,提高质量。

    对于葡萄、浆果和西红柿等许多农作物,由计算机视觉引导的机器人收割机可以采摘水果而不会损坏它们。这些机器人使用人工智能来评估每个水果的成熟度,选择它并轻轻地收集它,使采摘更加高效和精确。

  • 一流的品质:通过识别水果的准确成熟度,人工智能确保只有最高品质的产品才能到达消费者手中,从而减少作物过熟或未熟的可能性。
  • 降低劳动力成本:收割自动化减少了对手工劳动的依赖,手工劳动既昂贵又稀缺,尤其是在世界许多地方。

    4. 智能灌溉和资源管理

    水是农业最宝贵的资源之一,人工智能可以帮助农民更明智地利用水。通过精准灌溉,人工智能模型可以分析土壤水分、天气状况和作物健康状况的实时数据,以准确确定田地每个部分需要多少水。

    通过监测土壤和天气状况,人工智能可以预测农作物何时需要浇水以及需要浇多少水,从而减少水浪费并提高农作物产量。这在缺水地区或旱季尤为重要。

  • 节水:通过优化灌溉时间表和调整田地各个部分的水位,人工智能帮助农民节约用水,同时保持作物健康。
  • 节省成本:高效的水管理减少了过度灌溉的需要,为农民节省了水和能源成本。

    5. 自动化机械:农业的未来

    农业人工智能最令人兴奋的进步之一是自动化机械的发展。这些人工智能机器可以在无需人工干预的情况下执行种植、除草和收割等任务。

    例如,配备计算机视觉的自动拖拉机可以犁地、播种和监测作物健康状况,同时避开障碍物并最大限度地减少土壤压实。同样,由人工智能驱动的机器人除草机可以在不损害作物的情况下识别和清除杂草,从而减少对除草剂的需求。

  • 效率:自动化机器可以全天候工作,减少对人力的需求并提高生产力。
  • 精确度:这些机器非常精确,可以最大限度地减少作物损害并减少化学品的过度使用。

    6. 环境可持续性

    人工智能在提高农业可持续性方面也发挥着重要作用。通过数据驱动的决策,人工智能可以帮助农民减少对环境的影响,同时提高生产力。

    例如,通过实时监测农作物的健康状况,人工智能可以帮助农民减少化肥和农药的使用。通过仅在需要时使用化学药品,农民可以减少径流并最大限度地减少对周围生态系统的影响。人工智能还可以通过识别需要更多关注的区域并指导农民如何更有效地分配资源来帮助优化土地利用。

  • 生态友好型农业:通过减少对化学处理的需求并减少浪费,人工智能帮助农民实践更可持续的农业。
  • 生物多样性:人工智能技术使农民能够监测田地中的生物多样性,确保他们在种植粮食的同时维持健康的生态系统。

挑战与未来潜力

    尽管人工智能为农业带来了令人难以置信的进步,但仍有挑战需要克服。首先,人工智能系统需要大量高质量数据才能发挥最佳功能,而并非所有农场都有资源来收集或管理这些数据。此外,人工智能技术价格昂贵,许多农民在采用新技术时可能会面临陡峭的学习曲线。

    然而,随着人工智能工具越来越普及和价格越来越实惠,以及农业数据收集方法的改进,人工智能改变农业的潜力不断增长。未来,人工智能甚至可以与物联网设备配对,获取作物生长的实时数据和预测分析,帮助农民做出更明智的数据驱动决策。

    从苹果种植到番茄病害检测,人工智能和计算机视觉正在帮助农民迎接现代农业的挑战。通过改善作物监测、优化资源、早期发现疾病和减少体力劳动,人工智能正在使农业更加高效、高产和可持续。

    人工智能并不完美,但可以通过改变置信度阈值和人工智能训练中的一些校准来改进。

    农业的未来是智能的、数据驱动的和可持续的。人工智能不仅仅是一种工具,它还是塑造未来粮食生产的合作伙伴——既能养活不断增长的全球人口,又能保护环境。随着技术的不断进步,人工智能彻底改变农业的潜力是无限的。随着每一次新的突破,我们都会更接近未来更高效、更具弹性、更可持续的农业系统。

#DOSOD

开放词汇检测新晋SOTA:地瓜机器人开源DOSOD实时检测算法

在计算机视觉领域,目标检测是一项关键技术,旨在识别图像或视频中感兴趣物体的位置与类别。传统的闭集检测长期占据主导地位,但近年来,开放词汇检测(Open-Vocabulary Object Detection-OVOD 或者 Open-Set Object Detection-OSOD)崭露头角,为目标检测带来了新的活力与可能性。与闭集检测相比,开放词汇检测打破了检测类别固定的“枷锁”,它在训练时利用丰富多样的文本 - 区域对(text-region pairs)数据,将文本作为类别标签,大大拓宽了可检测的范围。尤其是在机器人感受周围环境的任务中,能够起到极大的帮助。

目前主流的开放词汇检测算法有Grounding-DINO系列和YOLO-World。在海量的私有数据集的加持下,前者具有非常强大的检测能力,精度遥遥领先,其模型依赖参数量较大的Transformer结构,实时性较弱。后者依赖轻量级的Convolution结构,能够达到实时推理的效率,精度上依然不错。

DOSOD(Decoupled Open-Set Object Detection)是地瓜机器人最新发布的开放词汇目标检测算法,力求在低算力边缘端实现更高的推理效率,同时带来比YOLO-World更具竞争力的精度表现。在算法上,DOSOD采用了独特的解耦特征对齐策略,摒弃了传统的图像-文本交互方式,通过基于MLPs的特征适配模块对图像与文本的特征进行优化与对齐,进一步提升了模型的推理效率和精度。

实验结果显示,DOSOD在多个公开数据集(如LVIS)上的表现超越了YOLO-World-v2,并在边缘AI计算平台上展现了压倒性的效率优势。

图片

文章开源地址:https://arxiv.org/abs/2412.14680代码开源地址:https://github.com/D-Robotics-AI-Lab/DOSOD文章由地瓜机器人应用算法部,中科院自动化所多模态人工智能系统全国重点实验室,苏州大学未来学院,上海科技大学信息科学技术学院联合出品。

DOSOD的基本原理

图片

目前主流的开放词汇检测对齐策略主要分为以下三种:

(a) 教师 - 学生蒸馏方法

  • 描述:利用 VLM(视觉语言模型)的文本编码器生成的文本嵌入来监督图像特征和检测器特征的对齐。也可以通过裁剪图像区域来对齐特征。
  • 总结:通过 VLM 的文本编码器来指导图像和检测器特征的对齐。

(b) 基于交互的对齐策略

  • 描述:文本嵌入与检测器骨干网络提取的图像特征进行交互,以实现对齐。
  • 总结:通过文本嵌入与图像特征的交互来实现特征对齐。

(c) 提出的解耦对齐策略

  • 描述:在不进行交互的情况下对齐特征,通过视觉 - 语言特征适配来实现。
  • 总结:采用解耦方式,不依赖交互来进行特征对齐。

DOSOD(Decoupled Open-Set Object Detection) 属于第三种开放词汇检测对齐策略——解耦对齐策略。该方法的核心思想是通过将文本和图像模态的特征解耦,以实现更高效的对齐过程,从而在保证检测精度的同时大幅提升推理速度。

图片

在此基础上,DOSOD洞察到了闭集检测与开放词汇检测之间的本质联系,提出了全新的结构框架(如上图所示)。具体来说,DOSOD将传统分类分支最后的卷积操作等价地解构为两个模态的特征对齐操作,从而激发出解耦的特征学习和共同空间对齐的结构。

在该框架中,类别标签文本首先通过一个文本编码器(来自VLM)生成初步的Text Embedding,然后经过一个基于MLPs的特征适应模块,对Text Embedding进行特征优化,为Joint Space中的对齐操作做准备。

在图像侧,DOSOD使用经典的单阶段目标检测器(文中使用了YOLOv8)来提取图像的多尺度特征图。每个特征点表示图像中的一个区域特征。最后,在Joint Space中,通过计算Text Embedding与Region Feature之间的相似度,从而完成特征对齐。

DOSOD的实验结果

在实验部分,DOSOD在公开数据集上进行了预训练,并在LVIS和COCO数据集上进行了Zero-shot验证。DOSOD均拥有优秀的精度表现:

  • 在LVIS数据集上,相较于YOLO-World-v2,DOSOD精度全面领先,并与YOLO-World-v1不分伯仲。

图片

  • 在COCO数据集上,DOSOD整体精度要略低于YOLO-World,但YOLO-World-v2的精度微高于YOLO-World-v1,也一定程度上说明,COCO由于词汇丰富程度较低,不太适用于开放词汇检测任务评测。

图片

在推理速度上,通过将DOSOD与YOLO-World在NVIDIA RTX 4090和D-Robotics RDK X5上进行全面对比,我们可以看到:

  • DOSOD在主流的服务器级别的芯片上,推理效率是显著高于YOLO-World。

图片

  • 在边缘侧的AI计算平台上,DOSOD以碾压式的效率提升,远远超越YOLO-World。

图片

DOSOD的应用效果

DOSOD开放词汇检测算法有着广泛的应用场景,既能用于常规检测任务里的目标检测,也可以应用在特殊场景下长尾目标类型的检测任务当中。针对某些极端长尾的目标类型,只需收集少量相关数据进行微调,就能显著提高模型的稳定性和检测效果。

  • DOSOD 在常规目标检测上的检测效果

在闭集目标检测任务中,COCO数据集预先定义了80个固定类别。我们可以看到,在经过大数据量的开放词汇数据集预训练后,DOSOD能够检测出诸多长尾类别,如图2左下角的“heater”,图4中的“shoe”和“wheel”,而这些词汇并未包含在COCO数据集的80个类别之内。

图片

DOSOD 部署在RDK X5上的通用场景感知效果↓↓↓

,时长00:39

  • DOSOD 在特殊场景的长尾类别上的检测效果

以下展示的是扫地机视角下的图像,任务要求是检测出地面上的各类污渍或障碍物,这些类别并不是常规目标检测任务中的标准类别。通过少量数据的微调,DOSOD成功识别了这些特殊类别,为在该场景中准确检测出多样化的长尾类别发挥了关键作用。

图片

图片

图片

图片

(滑动查看更多)

DOSOD 部署在RDK X5上的扫地机污渍检测Demo效果↓↓↓

以下视频来源于

地瓜机器人

,时长01:50

DOSOD作为一款新兴的开放词汇检测算法,凭借创新的解耦特征对齐策略,在提升推理效率的同时,成功地保证了精度,展示出了极强的应用潜力。未来,随着计算资源的提升与算法的不断优化,DOSOD有望在机器人、自动驾驶、智能家居等领域提供更加高效精准的目标检测解决方案。

作为地瓜机器人前沿算法研究的最新成果,DOSOD不仅在精度上超越了对标方法,更成功解决了推理效率与低算力设备适应性之间的挑战,为智能机器人技术的普及与发展提供了有力支持。

未来,地瓜机器人将秉承“成为机器人时代的Wintel”的品牌初心,持续与客户一同深入应用场景,在提供拥有极致性能表现的硬件的同时,为行业客户和开发者提供丰富的具有实用价值的算法,加速机器人技术的落地和广泛应用。

#图像处理应用中如何实现 C++ 和 Python 的高效通信

在开发需要 C++ 和 Python 交互的应用程序时,特别是对于图像处理等任务,建立有效的通信机制至关重要。本文概述了一种全面的解决方案,用于将图像向量从 C++ 应用程序传输到 Python 应用程序进行推理,使用 ZeroMQ 进行进程间通信 (IPC),使用协议缓冲区 (protobuf) 进行序列化。

概 述

    解决方案涉及三个主要步骤:

  • 使用 protobuf 在 C++ 中序列化图像数据。
  • 使用 ZeroMQ 传输序列化数据。
  • 在 Python 中对图像数据进行反序列化和处理。

    这种方法可确保高效的数据传输、同步和完整性,使其适用于实时或高性能应用程序。

先决条件

    1. 搭建C++ 和 Python 开发环境。

    2. 安装ZeroMQ库:

    对于 C++,安装 ZeroMQ 库 ( libzmq) 和 C++ 绑定 ( cppzmq)。

    对于 Python,安装pyzmq库。

    3.协议缓冲区(protobuf):

    安装 protobuf 编译器(protoc)。

    为 C++ 和 Python 安装 protobuf 库。

详细步骤

    1. 使用 Protobuf 在 C++ 中进行序列化

    a. 定义Protobuf消息

    首先,定义一个 protobuf 消息来表示一张图片和一个图片向量。将此定义保存在名为 的文件中image_vector.proto:

syntax = "proto3";


message Image {
  bytes data = 1;
  int32 width = 2;
  int32 height = 3;
  int32 channels = 4;
}


message ImageVector {
  repeated Image images = 1;
}

    b. 生成 Protobuf 类

    使用 protobuf 编译器从.proto文件生成 C++ 和 Python 类:

protoc --cpp_out=. image_vector.proto
protoc --python_out=. image_vector.proto

    c. 在 C++ 中序列化图像

    在您的 C++ 应用程序中,使用生成的 protobuf 类序列化图像向量。

    2. 使用 ZeroMQ 传输数据

    ZeroMQ 简化了 C++ 和 Python 应用程序之间的数据传输。在这里,我们实现了一个 C++ 客户端和一个 Python 服务器。

    a. C++ 客户端

    C++客户端将图像序列化并发送到服务器:

#include <zmq.hpp>
#include <opencv2/opencv.hpp>
#include <fstream>
#include "image_vector.pb.h"


void send_images(const std::vector<cv::Mat>& images, zmq::socket_t& socket) {
    ImageVector image_vector;


    for (const auto& img : images) {
        Image* image = image_vector.add_images();
        image->set_data(img.data, img.total() * img.elemSize());
        image->set_width(img.cols);
        image->set_height(img.rows);
        image->set_channels(img.channels());
    }


    std::string serialized_data;
    image_vector.SerializeToString(&serialized_data);


    zmq::message_t request(serialized_data.size());
    memcpy(request.data(), serialized_data.data(), serialized_data.size());
    socket.send(request, zmq::send_flags::none);


    zmq::message_t reply;
    socket.recv(reply, zmq::recv_flags::none);
    std::string reply_str(static_cast<char*>(reply.data()), reply.size());
    std::cout << "Received reply: " << reply_str << std::endl;
}


int main() {
    zmq::context_t context(1);
    zmq::socket_t socket(context, ZMQ_REQ);
    socket.connect("tcp://localhost:5555");


    std::vector<cv::Mat> images = ...; // Your vector of images
    send_images(images, socket);


    return 0;
}

    b. Python 服务器

    Python 服务器接收序列化的图像、对其进行反序列化、处理并返回响应:

import zmq
import cv2
import numpy as np
from image_vector_pb2 import ImageVector


def process_images(images):
    processed_images = [cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) for img in images]
    return processed_images


def main():
    context = zmq.Context()
    socket = context.socket(zmq.REP)
    socket.bind("tcp://*:5555")


    while True:
        message = socket.recv()


        image_vector = ImageVector()
        image_vector.ParseFromString(message)


        images = []
        for image in image_vector.images:
            img_array = np.frombuffer(image.data, dtype=np.uint8)
            img = img_array.reshape((image.height, image.width, image.channels))
            images.append(img)


        processed_images = process_images(images)


        response = "Processed {} images".format(len(processed_images))
        socket.send_string(response)


if __name__ == "__main__":
    main()

结 论

    该解决方案利用 ZeroMQ 的高性能功能进行 IPC 和 protobuf 进行高效序列化,从而实现 C++ 和 Python 应用程序之间的无缝通信和同步。通过遵循这些步骤,您可以实现一个强大而高效的系统,用于在不同编程环境之间传输和处理图像数据。此设置对于性能和同步至关重要的实时应用程序特别有用。

    对于初学者来说,本文提供了一个清晰而实用的示例,说明如何弥合 C++ 和 Python 之间的差距,为更高级和集成的软件开发项目提供了强大的工具集。

#EvalMuse-40K

从文字到视觉:EvalMuse-40K如何评价T2I模型的进化

本篇分享论文​​EvalMuse-40K : A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation​​,介绍业界规模最大的文生图评估数据库——EvalMuse-40K,以及两种达到SOTA的图文匹配度评估算法——FGA-BLIP2和PN-VQ。

  • 论文链接:https://arxiv.org/abs/2412.18150
  • 项目链接:https://shh-han.github.io/EvalMuse-project/

近年来,文生图(T2I)模型技术迅速发展,催生了Dreamina、DALL·E3和Midjourney等热门工具。它们能够精准理解用户的prompt(提示词),将简短描述转化为高质量且富有美感和一致性的图像。这一技术显著降低了创作门槛,提升了效率和趣味性,让艺术创作、广告设计及日常分享变得更加简单直观。文生图技术的普及,为数字内容创作开辟了全新可能性。

图片

然而,评估这些模型的性能,特别是在图文匹配度方面,一直是一个挑战。传统评估方法已无法全面衡量图像与文本的匹配度,现有标准无法有效的捕捉细节偏差和一致性问题。为解决这一问题,抖音多媒体质量实验室与豆包大模型团队及南开大学合作,推出了业界规模最大的文生图评估数据库——EvalMuse-40K。此外,还提出两种达到SOTA的图文匹配度评估算法——FGA-BLIP2以及PN-VQ。利用EvalMuse-40K,我们探索了现有图文匹配度评估方法与人类偏好的一致性,并使用提出的方法对现有T2I模型进行了评估和排序,为该领域提供了重要的参考和指导。

名词解释:

  1. T2I:即Text to Image,是在AI产品中通过文本输入指令生成相关图片的一种技术。这项技术能够将用户提供的文字描述转化为相应的图像。
  2. Prompt:Prompt(引导词),是一段自然语言描述的文本,它作为AI模型的重要输入来指导模型生成内容。
  3. 图文匹配度:图文匹配度(Image-Text Alignment or Image-Text Matching)是指图像和文本之间的语义一致性和相似度。在文生图(T2I)模型中,图文匹配度衡量的是模型生成的图像与给定文本描述之间的相关性和准确性。
  4. SOTA:“State Of The Art”的缩写,通常用于描述某个领域的最新发展,或某个产品、服务或解决方案的最新版本。

EvalMuse-40K 是一个包含40,000对图像-文本对和超过100万细粒度人类标注的Benchmark,旨在全面评估图文匹配度评估方法的性能和T2I模型在图像-文本对齐方面的表现。该Benchmark的构建过程既复杂又细致,我们通过精心设计的数据集和标注体系,力求能够更好的评估现有图文匹配度评估方法与人类偏好的一致性,并最大程度地反映T2I模型在实际应用中的表现。

我们的工作不仅仅是构建一个大规模的Benchmark,更包括了开发创新的评估算法FGA-BLIP2以及PN-VQA,旨在提高图文匹配度的评估精度与一致性。整体的工作架构图如下所示:

图片

1.Benchmark介绍

EvalMuse-40K 是目前业界规模最大的文生图(T2I)评估数据库,包含40,000组图像-文本对数据和超过100万细粒度的人类标注,旨在全面评估图文匹配度评估方法的性能和T2I模型在图文匹配度上的表现。

EvalMuse-40K 的构建过程复杂而细致。我们首先从 DiffusionDB 中收集了2,000个真实用户的提示,这些提示反映了用户的多样化需求。同时,我们生成了2,000个合成提示,涵盖了物体数量、颜色、材质、环境设置、活动属性等多个方面,以全面评估T2I模型在不同任务中的表现。

接下来,我们使用20种不同的扩散模型生成了40,000张图像,确保了图像的多样性和质量。在数据标注阶段,我们对这些图像-文本对进行了细致的人工标注,涵盖图像-文本对齐评分、元素级别的匹配检查和结构问题标记。标注过程分为预标注、正式标注和重新标注三个阶段,以确保数据的可靠性和准确性。

与现有的文本到图像(T2I)模型的Benchmark相比,EvalMuse-40K 提供了一个更大规模、更细粒度的评估数据库。超过100万细粒度人类标注,使得 EvalMuse-40K 在数据集规模和多样性上远超许多现有Benchmark。与业界一些相关Benchmark的比较见下表:

图片

为了确保 EvalMuse-40K 的可靠性和有效性,我们进行了全面的数据统计和深入分析。通过对图像-文本对齐分数的分布进行细致观察,我们发现这些分数覆盖了从低到高的广泛范围。这种多样化的分布不仅为我们提供了丰富的样本,也使得评估现有图像对齐度量与人类偏好之间的一致性成为可能。

图片

此外,我们还对不同标注者之间的分数差异进行了详细计算,结果表明,75%的样本分数差异小于1分,这表明我们的标注过程在各标注者之间具有较高的一致性。对于那些分数差异较大的样本,我们进行了重新标注,以进一步减少主观偏差,确保标注的可靠性和准确性。

我们还对细粒度标注中的元素数量和对齐分数进行了统计分析,发现大多数类别的整体对齐分数都集中在50%左右,这一结果确保了正负样本的平衡分布,为后续的模型评估提供了稳定的数据基础。通过对这些细节的深入分析,我们能够更精确地评估模型在图像与文本对齐任务中的表现。

另外,我们发现AIGC模型在计数、活动等方面与文本描述的一致性相对较差,这一发现为未来的模型改进提供了重要的反馈。具体而言,模型在处理复杂的空间关系和多元素计数时容易出现偏差,而在描述动态活动场景时,模型的表现也不如预期。这些结果为未来研究和模型优化提供了明确的方向,帮助我们识别当前技术的局限性,并推动T2I模型在这些关键问题上进一步提升。

图片

图片

2.评估算法介绍

为了更准确地评估文本到图像生成(T2I)模型的性能,我们开发了两种最先进的评估算法:FGA-BLIP2 和 PN-VQA。这两种方法都旨在提升图文匹配度评估的准确性,确保与人类评估结果的一致性。

FGA-BLIP2 是一种端到端的细粒度对齐评分模型,借助联合微调视觉-语言模型 BLIP2 来预测图像和文本之间的对齐程度。该模型有三个显著特点:首先,它能够直接从图像和文本对中学习对齐分数,实现端到端的训练流程;其次,它不仅评估图像与文本的整体的匹配度,还对文本中的各个元素进行细粒度的评估,确保评估结果更加全面和精确,模型架构如下图1所示。最后,FGA-BLIP2 采用了方差加权优化策略,使得模型在训练过程中更加关注那些对齐分数差异较大的样本,从而提升了评估的准确性和鲁棒性。

图片

图1

根据下表1所示,FGA-BLIP2 在多个数据集上的评估结果显示,与人类标注的相关性最为接近,取得了最佳的评估表现。这证明了该模型在图文匹配度评估中的高效性和可靠性。

图片

表1

图片

FGA-BLIP2打分示例,其中Result为综合图文匹配度打分,分值为1-5,分数越高,匹配度越好;Elescore为prompt中的考点元素的命中概率,如果在0.5以上,说明模型认为该考点元素可以在图像中匹配到。

prompt

图像

打分结果

A photograph of a lady practicing yoga in a quiet studio, full shot.

JSON

"Result": 3.46,

"EleScore": {

"a lady": 0.62,

"photograph": 0.88,

"practicing": 0.57,

"quiet studio": 0.75,

"yoga": 0.73

}

The word 'START',Five letters

JSON

"Result": 4.15,

"EleScore": {

"START": 0.79

}

PN-VQA(Positive-Negative Visual Question Answering)是一种用于评估文本到图像生成模型性能的方法,借助预训练的多语言视觉问答模型(MLLM)来衡量生成图像与输入文本之间的对齐程度。这种方法的创新之处在于引入了正负问答机制,从而提升评估的准确性和鲁棒性。

具体而言,我们首先利用 GPT 对生成图像所使用的 prompt 中的细粒度信息进行问题生成,确保生成的问题为简单的判断题,能够有效判断细粒度信息与图像是否匹配。例如,如果 prompt 是 “a cat sitting on a mat”,生成的问题可能是 “Is there a cat in the image?”,生成的答案则为“Yes”。

通过这种方式,我们能够精准地判断图像与细节文本之间的对齐情况,从而为模型的评估提供更细致、可靠的依据。接下来,我们构建了正负 VQA 内容,并进行了相关实验,以进一步验证该方法的有效性和优势。

JSON
正向:Given an image generated from 'a cat sitting on a mat' , is the answer to 'is there a cat in the image?' in this image <strong>yes</strong>?
负向:Given an image generated from 'a cat sitting on a mat' , is the answer to 'is there a cat in the image?' in this image <strong>no</strong>?

正向VQA问题的预期答案为“yes”,而负向VQA问题的预期答案为“no”。我们分别计算多语言视觉问答模型(MLLM)对这两类问题输出预期答案的概率,然后取其平均值作为最终的细粒度匹配分数。这种方法有效地减少了模型在输出“yes”或“no”时可能存在的偏好,从而获得了一个更加平衡且鲁棒的评估结果。下表2展示了我们提出的PN-VQA各个模块的有效性。

图片

表2​

3.线下验证结果

在EvalMuse-40K测试中,我们使用FGA-BLIP2对T2I模型的图文对齐任务进行了排序。我们从数据集中选取了100个具有代表性的prompt,并让每个模型针对每个prompt生成四张不同的图像。随后,我们使用FGA-BLIP2评估了这些图像与输入文本的对齐程度。

通过计算整体对齐分数和细粒度对齐分数,我们对各模型进行了排序。结果显示,一些专有模型,如Dreamina-v2.0pro、DALL·E3和FLUX1.1,在图像-文本对齐方面表现尤为突出。具体的排序内容请参见下表:

#Edicho

即插即用,无缝集成各种模型,港科大&蚂蚁等发布:图像编辑一致性最新成果!

港科大和蚂蚁集团联合发布的Edicho方法,该方法通过显式图像对应性引导扩散模型的去噪过程,实现了图像编辑的一致性。Edicho具有免训练和即插即用的特性,适配多种扩散模型和任务场景,展现出在定量指标和定性评估上的卓越性能,为个性化内容创作和3D重建等应用提供了新的工具。

文章链接:​​https://arxiv.org/pdf/2412.21079​

项目链接:​​https://ezioby.github.io/edicho/​

亮点直击

  • 显式对应性引导一致性编辑:通过将显式图像对应性融入扩散模型的去噪过程,改进自注意力机制与分类器自由引导(CFG),在保持高质量的同时显著提升编辑一致性。
  • 融合无条件嵌入特征:受 NULL-text Inversion 技术启发,提出融合无条件嵌入特征的方法,进一步增强一致性效果,实现更精细的编辑控制。
  • 广泛适用性与优越性能:方法具有免训练和即插即用特性,适配多种扩散模型与任务场景。通过实验验证,展现出在定量指标与定性评估上的卓越性能。

总结速览

解决的问题
跨图像一致性编辑是计算机视觉和图像处理领域中的重要挑战,尤其是面对多样的姿态、光照条件和拍摄环境时。这种一致性编辑广泛应用于产品展示、个性化内容创作以及主题活动等场景。然而,现有方法在处理多图像一致性时常表现出不稳定性或失真,难以满足实际需求。

提出的方案本文提出了一种基于扩散模型的免训练解决方案 Edicho。其核心设计理念是通过显式图像对应性引导编辑过程,避免传统隐式对应性方法的局限性。包括:

  • 注意力操作模块:增强注意力机制,通过图像之间的对应性引导特征传递。
  • 优化的分类器自由引导(CFG)去噪策略:结合预计算的对应性,在编辑过程中保持高质量和一致性。

应用的技术

  • 利用扩散模型的中间特征与生成图像空间的对齐特性,通过显式对应性指导编辑。
  • 在注意力机制中对查询特征进行变换,从源图像借用相关特征,确保编辑一致性。
  • 修改分类器自由引导的计算方式,融合无条件嵌入特征,提升一致性和图像质量。
  • 特别设计处理真实世界场景图像的能力,保证方法对光照、背景、视角和遮挡变化的鲁棒性。

达到的效果

  • 一致性提升:实现了多图像间的一致性编辑,编辑结果在各种场景下保持高度协调。
  • 通用性:作为推理时的算法,可与大多数基于扩散的编辑方法(如 ControlNet 和 BrushNet)无缝兼容。
  • 实用性:适用于个性化内容创作、3D重建以及一致性纹理应用,扩展了编辑工具的适用范围。
  • 高效性:无需训练数据,具备即插即用特性,能够直接应用于实际任务,代码公开以支持进一步研究。​

方法

本文专注于一致性图像编辑任务,即同时对多张图像进行操作以实现一致且统一的视觉效果。首先利用现有的视觉理解方法提取图像对之间的显式语义对应性。再借助构建于 Stable Diffusion 之上的预训练编辑模型,通过这些预计算的显式对应性指导去噪过程,从而确保编辑的一致性。

本节首先回顾扩散模型的一些基本概念,随后讨论显式对应性指导的去噪过程,该过程包括两个层次:注意力特征层和噪声隐空间变量层。需要注意的是,这些特征操作仅应用于部分去噪步骤和层级,以保留预训练模型的强生成先验。

预备知识

扩散模型是一类概率生成模型,通过逐步添加和去除噪声的过程进行训练。前向过程将噪声添加到图像中,具体如下:

图片

在此, 表示噪声调度函数。一个神经网络  被训练用于在反向去噪过程中预测添加的噪声  ,最终从高斯噪声  中完成采样。在隐空间变量扩散模型(LDMs)的公式中,一对预训练的变分编码器  和解码器  用于感知压缩,并允许在该隐空间变量空间中对噪声隐空间变量  进行去噪。

无分类器引导(CFG)
无分类器引导(CFG)是一种创新技术,旨在通过扩散模型在不依赖额外分类器的情况下提高生成图像的质量和多样性。具体而言,CFG 引入了一个混合系数,用于融合去噪模型生成的条件预测和无条件预测。无条件预测通常通过将条件设置为空或默认值来获得。

编辑的参考网络
最近的编辑方法 [25, 60] 通过在预训练的大型扩散模型上学习一个额外的参考网络来实现编辑,同时保持预训练骨干网络固定。这种网络拓扑结构保持的设计成功地将控制信号与预训练的生成先验分离开。

对应性比较与预测

对应性比较
为了实现一致性编辑的目标,首先从显式和隐式对应性之间的比较开始匹配。显式提取器通过单次前向过程从输入图像中预测对应性,并将此预测应用于所有目标网络层和去噪步骤。而隐式提取器则通过计算每一层和去噪步骤中注意力查询与键的相似性来预测对应性。如同之前的无训练编辑方法,这些对应性随后被应用于当前层和步骤以进行编辑。

下图2展示了使用显式和隐式方法的对应性预测结果。对于显式预测,在案例(a)和(b)中,采用了 DIFT,在案例(c)中使用了 Dust3R。对于隐式方法,遵循 Cross-Image-Attention 的方法,通过查询匹配图像的注意力键,基于注意力相似性计算对应性,公式为  ,并将具有最大相似性的对应位置进行可视化,其中  和  表示图像索引。

此外,对于案例 (a)、(b) 和 (c),选择了不同的网络层和去噪步骤 (1, 10)、(2, 15)、(4, 25) 进行提取,以实现更全面的探索,其中表示扩散模型的解码器层编号和去噪步骤编号。上面图 2 中的可视化结果表明,通过显式预测获得的对应性明显比隐式方法更准确。而且,隐式方法的预测结果随着网络层和去噪步骤的变化往往变得不稳定。这些结果与之前的研究 [50, 59] 一致,表明只有生成模型的特定层或步骤适合有效的视觉理解,例如点匹配。

不准确的对应性匹配会在执行跨图像注意力时引入不准确的特征,这阻碍了仅基于隐式注意力的编辑方法的编辑一致性。这进一步强化了本文引入更稳健的显式对应性来指导去噪过程的动机。

对应性预测
为了实现图像 和 的一致性编辑,本文的方法的第一步是使用预训练的对应性提取器(如 [50, 55])从输入图像中提取稳健的对应性:

图片

其中, 和 分别表示提取器和对应性。实践中,提取器实例化为 DIFT 的形式。为了进一步优化效率,实施了一种策略,以避免重复计算对应性,特别是在相同的图像或图像组被多次处理的情况下。通过使用 MD5 哈希函数对每个图像组进行编码,创建一个唯一标识符。然后将标识符(键)和对应性(值)存储在一个小型数据库中,输入图像组在编辑之前首先检索该数据以加速处理。

使用对应性的注意力操作

回顾一下,在自注意力模块中,中间特征  首先通过学习的投影矩阵  和  投影为查询  ,键  和值  。然后,根据[53]的方法,通过自主计算和评估这些特征表示的相关性,可以计算注意力特征  。

受显式和隐式对应性比较的启发,本文提出用显式对应性来引导自注意力,以实现一致性编辑,这种方法称为 Corr-Attention。对于输入图像中的一对  ,我们基于显式对应性从查询矩阵  借用特征到  ,以形成一个新的查询矩阵  :

图片

其中,Warp 函数表示通过根据对应位置将对应的标记变换到源位置来借用特征的过程。考虑到(1)  的token是从  借用的,(2)为了进一步提高一致性,在编辑  时查询的是  而不是

图片

其中, 表示  和  的维度, 表示  的注意力输出。通过从源头转移注意力特征,我们有效地在去噪过程中实现了编辑一致性。

无分类器引导与对应关系

为了在编辑后的图像中保持更精细的一致性,从注意力特征控制进一步着手,聚焦于无分类器引导(CFG) 中的噪声隐空间变量。本文扩展了传统的 CFG 框架,通过利用显式的对应关系促进多个图像的同步编辑,并提出了 Corr-CFG。NULL-text 反演 证明了优化无条件词嵌入可以实现精确的图像反演和语义编辑。受到该方法的启发,我们的主要目标是在一致性编辑过程中保留预训练模型强大的生成先验的完整性。为了实现这一点,我们提出仅在对应关系的引导下操控 CFG 框架中的无条件分支。

在 CFG 中,去噪过程被分为条件分支和无条件分支,噪声通过神经网络进行估计:

图片

其中, 表示条件(文本提示), 表示空文本。具体来说,我们修改了  的无条件噪声部分,并在去噪过程中将  中的信息合并到其中,从而确保一致的编辑。

图片

其中, 表示融合函数,用于对齐无条件噪声, 表示时间步长。

图片

这里的  和  是可调参数。函数  表示在  的部分范围内随机选择  的隐空间变量,并将其注入到  中。最后,像先前的范式一样应用引导,并融合条件和无条件预测。

图片

其中  表示引导尺度。最终生成的隐空间变量将发送到VAE解码器,以解码为图像。​

实验

实验设置

设置:使用Stable Diffusion 作为基础模型,并采用BrushNet 和ControlNet 作为编辑的参考网络。采用DDIM调度器,并进行50步的去噪。默认情况下,提出的基于对应关系的去噪策略应用于第4步到第40步,并从第8个注意力层开始应用,以确保一致性并保持强大的生成先验。需要注意的是,在使用不同基础模型时,这些选择的最优设置可能有所不同。测试样本部分来自互联网,其他样本来自DreamBooth和Custom Diffusion的数据集。

评估指标:遵循Custom Diffusion的方法,采用流行的多模态模型CLIP来评估各种方法在文本对齐(TA)和编辑一致性(EC)方面的表现。具体来说,一方面,通过计算目标提示和模型输出的特征相似度来判断文本对齐;另一方面,通过计算编辑图像的特征相似度来评估编辑一致性。此外,还纳入了用户研究(US)来进一步评估实际应用性和用户满意度。

基准:包含了局部和全局编辑任务,并且与众多先前的图像编辑方法进行了全面对比。具体来说,对于局部编辑任务,包括了Adobe Firefly 、Anydoor和Paint-by-Example等先前的工作进行比较。

在上述方法中,Firefly是Adobe开发的最先进的商业图像修复工具,可以根据给定的文本提示重新绘制输入图像的局部区域。为了实现一致的编辑任务,该组图像将根据相同的详细提示进行修复。Anydoor和Paint-by-example都是支持根据给定参考图像重新绘制目标区域的隐空间变量扩散模型(LDM)。因此,我们将修复后的图像发送给这些模型作为参考,期望得到一致的编辑结果。

对于全局编辑,将本文的方案与MasaCtrl、StyleAlign和Cross-image attention进行比较。上述方法通过操作和融合来自不同源的注意力特征来实现编辑。与本文的方法不同,它们通过计算注意力权重中的隐式对应关系来确保编辑结果的一致性。

评估

定性结果:本文展示了对一致性编辑方法的定性评估,重点关注局部编辑(图像修复)和全局编辑(图像转换)。在下图4中的局部编辑比较中,本文的方法、Adobe Firefly (AF)、Anydoor (AD)和Paint-by-Example (PBE)的结果进行了展示。结果表明,本文的方法通过引入显式的对应关系,始终保持了输入图像在不同修改下的完整性,包括衣物纹理、面罩和领口外观,甚至鞋子的孔眼数量。

全局编辑的基准主要包括仅由隐式注意力预测的方案——MasaCtrl (MC)、StyleAligned (SA)和Cross-Image-Attention (CIA)。如下图5所示,本文的方法也在编辑过程中取得了更好的一致性和主题一致性,如猫的裙子。与之相比,隐式方法(如MasaCtrl)在汽车车顶、精灵的高领以及机器人的孔洞数量方面未能实现一致的编辑。

定量结果:对本文提出的方法进行了全面的定量评估,重点关注文本对齐(TA)和编辑一致性(EC)指标。正如下表1所示,在局部编辑任务中,本文的方法在TA和EC得分上均取得了最佳成绩,展示了相较于其他方法的显著改进。在全局编辑任务中,本文的方法继续超越其他对比方法,达到了0.3228的TA得分和0.9355的EC得分。这些结果清楚地证明了本文的方法在实现局部和全局编辑场景中的高文本对齐和编辑一致性方面的有效性。

消融实验

为了验证所提出的基于对应关系的注意力操作(Corr-Attention)和基于对应关系的CFG(Corr-CFG)的有效性,我们通过分别禁用其中一个方法,并在一致性编辑任务上进行测试来进行消融实验。当禁用所提出的基于对应关系的注意力操作(Corr-Attention)时,扩散模型依赖于隐式注意力对应关系来保持一致性,类似于之前的方法[1,7]。如下图6(a)所示,生成模型会产生错误数量的花朵,并且位置不当。花朵的数量和纹理的不一致证明了引入显式对应关系到注意力操作中的有效性。

基于对应关系的CFG(Corr-CFG)旨在通过在LDM的潜空间中进行更精细的一致性控制,这一点在图6(b)中得到了验证,Corr-CFG生成了更一致的花朵纹理和碗底的条纹。

额外的应用和结果

基于一致性编辑的定制化:为了进一步展示所提方法的实际应用,我们展示了一个集成DreamBooth和低秩适应(LoRA)技术的定制化图像生成应用示例。利用我们方法生成的编辑输出,我们采用DreamBooth对生成模型进行500步的微调,以进行概念注入。同时,我们还整合了LoRA技术,通过引入低秩矩阵作为适应参数,进一步提高了这一过程的效率。如下图7所示,微调后的生成模型能够生成与编辑对应的理想图像。因此,新的概念生成和概念编辑可以通过这种方式实现,成为一致性编辑的应用示例。

基于一致性编辑的3D重建:一致性编辑还能够促进编辑内容的3D重建。我们通过神经回归器实现了3D重建,该回归器能够根据一致的图像对预测准确的3D场景表示。以编辑后的图像为输入,学习到的神经回归器能够预测3D点云模型和2D匹配点,而不需要其他输入,如相机参数。重建和匹配结果如下图8所示,结果也进一步表明了我们方法的编辑一致性。该回归器分别为两组编辑获取了11,515对和13,800对匹配点,且仅展示了其中的一部分以便清晰理解。

额外结果:我们提供了通过所提方法实现的多图像修复和转换的多样结果,如下图9(a)和(b)所示。图9(c)展示了包含三张图像的图像集的编辑结果。​

结论

本文提出了Edicho,一种新颖的免训练的方法,通过利用不同图像之间的显式对应关系,实现一致性的图像编辑。本文的方法通过将对应关系信息整合到去噪过程中,增强了自注意力机制和无分类器引导计算,从而确保了编辑的一致性。方法的即插即用特性使其能够无缝集成到各种模型中,且适用于广泛的任务。

在局限性方面,有时由于对应关系的错位,生成的纹理可能不一致,预计随着更好的对应关系提取器的出现,这一问题能够得到改进。并且,由于继承了预训练的编辑模型,偶尔会生成失真纹理。

#VMix

图像美感增强SOTA,拒绝美感焦虑!字节跳动提出VMix:多维度美学控制方法,一键提升图像光影、色彩等

尽管扩散模型在文本到图像生成方面取得了显著成功,它们可能仍然无法生成高度美学的图像。在包括颜色、光照、构图等更细致的维度上,生成的图像与真实世界的美学图像之间仍然存在差距。

为了解决这个问题,字节跳动&中科大研究团队提出VMix美学条件注入方法,通过将抽象的图像美感拆分成不同维度的美学向量引入扩散模型,从而实现细粒度美学图像生成。论文基于提出的方法训练了一个即插即用的模块,无需再训练即可应用于不同的开源模型,提升模型的生成美感。

  • 论文题目:VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control
  • 文章链接:https://arxiv.org/pdf/2412.20800
  • 代码地址:https://github.com/fenfenfenfan/VMix
  • 项目地址:https://vmix-diffusion.github.io/VMix/

效果展示

首先展示论文方法对不同模型的美感增强,对于不同开源底模,VMix都能有效提升基模的美感。下图是使用VMix前后的对比,可以看到图片在光影、色彩、质感等的表现上都有显著提升。

图片

图片

图片

图片

图片

图片

图片

图片

另外,VMix还可以增强模型在特定维度上的表现,通过美学向量实现细粒度视觉控制,从而实现对应维度美学的提升,当美学向量的所有标签为正时,此时图片的美感是最高的。

图片

图片

此外,VMix方法除了能直接提升开源模型(包括SD1.5、SDXL)生图效果外,还兼容开源社区的其它方法,包括ControlNet、LoRA、IPAdapter等。

底模兼容性:

图片

插件兼容性:

图片

背景介绍

美感提升一直都是文生图领域的一大难点,现有的工作已经在提高图像质量以满足人类偏好方面做出了相当大的努力,这些工作主要可以分为两大类。第一类工作侧重于基于特别高质量的子数据集,或者通过强化学习和直接偏好优化,对预训练的文本到图像模型进行微调;第二类工作则侧重于研究预训练扩散模型本身的生成行为,以提高其生成稳定性。

然而,作者认为现有的方法未能对视觉生成内容的细粒度人类偏好进行对齐。人类偏好的图像应在各种细粒度的美学维度上同时表现出色,例如自然光、协调的颜色和合理的构图。

一方面,这些细粒度的美学需求不能简单地通过增加详细的文本描述来让预训练的扩散模型理解。原因在于它们的文本编码器主要用于捕捉高层次语义,缺乏对这些难以言喻的视觉美学的准确感知。

另一方面,整体图像生成质量的优化方向既不等同于也不一致于这些细粒度美学维度的优化方向。例如,尽管整体生成结果可能在文本对齐方面表现更好,但它们可能在视觉构图方面表现较差。

图片

方法介绍

基于以上背景,论文提出VMix方法,通过细粒度美学信息注入,让模型能更好地拟合高质量数据。从而一方面从多维度提升模型美学上限,另一方面还能维持基模原本的图文匹配能力。

图片

VMix的完整流程如上:

第一步,在初始化阶段,预定义的美学标签通过CLIP转换为[CLS]标记,从而获得AesEmb,这只需要在训练开始时处理一次即可缓存,从而增加计算效率;

第二步,在训练阶段,一个投影层首先将输入的美学描述映射到与内容文本嵌入相同的标记维度的嵌入,然后,文本嵌入会通过提出的VMix值混合交叉注意力集成到去噪网络中;

第三步,在推理阶段,VMix从AesEmb中提取所有正向美学嵌入以形成美学输入,并与内容输入一起输入模型进行最终的去噪过程。

实验结果

在MJHQ-30K和LAION-HQ10K数据集上,VMix取得了最高的美学得分,相较于其它方法有着显著的超越,并且可以看到,原模型的图文匹配能力也得到了有效保留,从而充分验证了方法有效性。

图片

图片

此外,论文还分别基于SD1.5和SDXL与其它SOTA方法做了定性比较,并且还做了SFT的实验对比,可以看到,无论是一些细粒度的生图美感,还是图片的图文一致性,VMix都好于其它方法。

SD1.5定性比较:

图片

SDXL定性比较:

图片

总结

本研究中提出了VMix,它使用解耦的美学描述作为额外条件,并采用交叉注意力混合控制方法来增强模型在各种美学维度上的表现。论文发现,使模型与人类期望对齐的最关键因素之一是使用合适的条件控制方法进行解耦的细粒度美学标签训练。

受此启发,论文不仅提出了一种有效的条件控制方法,显著提高了模型的生成质量,还将其作为一个即插即用的插件,无缝集成到开源模型中,提升美学表现。

大量实验验证了VMix在文本保真度和视觉美学方面超越了其他最先进的方法,从而进一步促进社区的发展。

#HOG (方向梯度直方图) 

    方向梯度直方图 (HOG)是计算机视觉和图像处理中用于检测物体或识别模式的特征描述符。它的工作原理是捕捉图像的结构和纹理,特别是关注表示强度变化的梯度。

    HOG 在物体检测、行人检测和图像分类等任务中特别受欢迎。

    基本术语

    直方图:数据频率分布的图形表示——在本例中是梯度的方向。

    方向:指梯度的方向。

    梯度:表示像素强度值的变化,捕捉图像中的边缘、纹理和结构。

    特征描述符

    特征描述子简单地表示图像,它只提取有用的信息,而忽略图像中不必要的信息。

    对于 HOG 特征描述符,我们还将图像(宽度 x 高度 x 通道)转换为用户选择的长度为n的特征向量。虽然查看这些图像可能有些困难,但这些图像非常适合 SVM 等图像分类算法,以便产生良好的结果。

    现在,你们可能想知道 HOG 特征描述符实际上如何对这些不必要的信息进行分类。它只是通过使用梯度直方图来实现这一点,梯度直方图是图像的特征。梯度对于检查图像中的边缘和角落(通过强度变化区域)非常重要,因为它们通常比平坦区域包含更多的信息。

    预处理

    人们在进行 HOG 对象检测时经常犯的一个关键错误是他们忘记对图像进行预处理,使其具有固定的宽高比。常见的宽高比(宽度:高度)是 1:2,因此您的图像可以是 100x200、500x1000 等。

    对于您选择的特定图像,请确保您识别所需的部分,以便它正确适合纵横比并且从长远来看更容易访问。

HOG 如何工作?

    HOG 遵循逐步过程来计算特征描述符。让我们分解一下

    在方向梯度直方图 (HOG)中,梯度并不是从 0° 到 360° 的每个方向都计算每个像素的梯度。相反,梯度是在特定方向上计算,然后分箱到方向箱中,通常跨度从0° 到 180°(或在某些实现中跨度从 0° 到 360°)。让我进一步说明这一点:

  • 每个像素计算一次梯度(基于 Gx 和 Gy)。
  • 梯度方向(θ)被量化为特定的箱(例如,9个或18个箱)。
  • 除非实现需要有符号梯度,否则不会为每个像素明确计算完整的 360° 方向。

    有符号梯度和无符号梯度的主要区别在于它们如何处理梯度方向:

  • 无符号渐变(0° 到 180°):将相反的方向视为相同(更少的箱体,更简单的表示)。0°(边缘从暗过渡到亮)。180°(边缘从亮过渡到暗)。这两个被视为等同的。
  • 有符号渐变(0° 到 360°):将相反的方向视为不同的方向(更多箱体,更高分辨率)。45° 表示从暗到亮的对角向上渐变。225° 表示从亮到暗的对角向下渐变。这两个方向不被视为相同。

    步骤 3:将图像分成单元格

    图像被分成几个不重叠的小矩形或正方形区域,称为单元(例如每个单元 8×8 像素)。

  • 每个细胞独立计算梯度方向的直方图。
  • 方向被量化为箱体(例如,9 个箱体代表从 0° 到 180° 的角度)。

    例子:

    对于 8x8 单元格:

  • 每个像素根据其梯度方向对一个方向箱做出贡献。
  • 该贡献由梯度大小加权。

    光照变化是另一个可能扰乱梯度计算的主要因素。例如,如果图片比当前亮度暗 1/2,则梯度幅度以及随后的直方图幅度都会减少一半。因此,我们希望我们的描述符不受光照变化的影响,这样它才能不偏不倚、有效。

    典型的归一化过程是通过向量的大小计算向量的长度,然后将该向量的所有元素除以长度。例如,如果你有一个向量 [1,2, 3],那么根据基本的数学原理,向量的长度将是 14 的平方根。通过将向量除以此长度,你将得到新的归一化向量 [0.27, 0.53, 0.80]。

    步骤 4:形成特征向量

    所有块的归一化直方图被连接成一个特征向量,代表整个图像。然后,该特征向量被用作分类器(例如 SVM)的输入。

示例:HOG 实际应用

    让我们看一个使用 HOG 检测 64×128 像素图像中的物体的示例(例如,行人检测):

    图像输入:

    提供灰度64×128像素图像。

    梯度计算:

    对于每个像素,使用 Sobel 算子计算梯度 Gx 和 Gy。

    细胞分裂:

    图像被分成 8×8 像素细胞,从而产生 8×16 个细胞。细胞总数:64/8×128/8 = 8x16 个细胞 = 128 个细胞

    4. 块规范化:

    对大小为 16×16 的重叠块(每个包含 4 个单元)进行规范化。

    一个区块通常由 4 个单元组成。

    这些直方图连接起来形成该块的单个特征向量。

    示例:如果每个单元有 9 个箱,则该块的特征向量有 4×9=36 个值。

    将 4 个单元格的直方图连接起来后进行归一化

    为什么要对块而不是单元进行规范化?

  • 增强的稳健性:跨 4 个单元的局部标准化可捕捉梯度的变化并平滑对比度的突然变化。
  • 更好的特征表示:它确保描述符考虑空间相邻的单元,从而提供更一致的特征集。

    5. 创建特征向量

    展平所有块的直方图:

    对图像中的所有块重复该过程。

    将所有块的所有标准化直方图连接成单个特征向量。

    示例:

    假设一个块的归一化直方图有 36 个值(4 个单元格 × 9 个箱)。

    如果图像中有 100 个块,则最终的特征向量大小为:

    使用特征向量:

    这个长特征向量(例如大小为 3600)被输入到机器学习模型(如 SVM)中,以    进行分类或对象检测。

    6. 分类

    特征向量被输入到 SVM 中,SVM 预测图像中是否存在行人。

HOG 的优势

    边缘和形状检测:

    HOG 专注于梯度,因此在检测边缘和形状方面非常有效。

    对光照变化的鲁棒性:

    通过对块进行标准化,HOG 确保它对光照或对比度的变化不太敏感。

    简单性:

    该算法实现简单并且计算效率高。

    已证明的有效性:

    HOG 已广泛应用于行人检测、物体检测和面部识别等应用,通常能产生出色的效果。

HOG 的缺点

    大图像的计算成本高:

    计算梯度、直方图和规范化块的计算成本很高,尤其是对于高分辨率图像而言。

    对变形的敏感性:

    HOG 假设物体是刚性的。它很难处理高度可变形或铰接的物体。

    固定网格大小:

    划分为固定的单元和块可能会导致细粒度的空间信息的丢失。

    不适合颜色特征:

    HOG 主要关注灰度渐变,并不固有地包含颜色信息。

#Text2Earth

文绘千里江山!1000万图文数据集Git-10M和生成式基础模型

本文来自遥感与深度学习。分享论文​​Text2Earth: Unlocking Text-driven Remote Sensing Image Generation with a Global-Scale Dataset and a Foundation Model​​,介绍了一个 1000 万图像文本对的全球遥感数据集和生成式基础模型Text2Earth。

  • 论文:https://arxiv.org/abs/2501.00895
  • 主页:https://chen-yang-liu.github.io/Text2Earth/
  • GitHub:https://github.com/Chen-Yang-Liu/Text2Earth
  • 年份:2025
  • 单位:北京航空航天大学

图片

创新点

  • Git-10M 数据集:引入了一个包含 1000 万图像文本对的全球遥感数据集,覆盖广泛的地理场景和多分辨率图像,大幅度提升了训练多模态生成模型的基础数据多样性。
  • Text2Earth 模型:提出了一个基于扩散模型的生成基础模型,具有 13 亿参数,支持分辨率控制、无边界场景生成和多任务能力。
  • 动态条件适配策略:提出了训练和推理过程中动态调整条件的机制,以增强模型在条件缺失情况下的生成能力和适应性。
  • 全能任务表现:模型在多任务中展示了通用性,包括零样本生成、场景扩展、图像编辑和跨模态生成。

,时长01:18

数据Git-10M数据

图片

1. 数据集规模和特点

规模

  • Git-10M 是一个包含 1000 万对图像与文本描述的全球遥感数据集。
  • 数据规模是现有最大的遥感图像-文本数据集的 5 倍(如 RS5M 数据集仅包含 200 万对数据)。

图片

图片

多样性

  • 涵盖全球范围内的典型地理场景,如 城市、森林、沙漠、山地、湿地 等。
  • 包括不同的地理分布和自然特征,增强了数据的空间覆盖性和内容丰富性。

分辨率范围

数据集包含从 0.5m/pixel 到 128m/pixel 的多分辨率图像:

  • 高分辨率图像(如 0.5m/pixel):用于精细特征的捕捉。
  • 低分辨率图像(如 128m/pixel):适用于大范围场景的宏观生成。

图片

元数据支持

每张图像都附带地理位置和分辨率信息,为生成高精度图像提供了更多上下文信息。

2. 数据来源

图片

公开数据集

公开数据集来自现有高质量遥感图像数据集,如:

  • Million-AID
  • GeoPile
  • SSL4EO-S12
  • SkyScript
  • DIOR
  • RSICB

手动收集

大部分数据来自从 Google Earth 手动获取的遥感图像,补充了现有公开数据集中未覆盖的地理场景。

3. 数据处理与增强

筛选

  • 去除了重复场景(如大面积的海洋图像),以提高地理分布的多样性。
  • 手动剔除低质量数据,如受噪声或伪影影响的图像。

增强

  • 对所有图像进行质量增强:
  • 使用预训练的高质量遥感图像增强模型,提升图像视觉效果和整体数据质量。

图片

4. 文本注释

自动化注释流程

  • 使用 GPT-4o 模型自动生成高质量的图像文本描述。
  • 通过场景标签(如“机场”)和元数据(如地理位置和分辨率)优化提示词,提高描述的精准性。

质量保证

  • 自动审计:检测 GPT-4o 的超时或错误响应。
  • 手动抽样:定期检查文本描述的语义准确性,并针对问题样本调整提示词后重新生成。

文本统计

  • 平均每条描述包含 52 个词汇。
  • 数据集中总计超过 1050 万条文本描述 和 55 亿个词汇。

5. 数据分析

  • 地理分布:图像覆盖全球范围,包括所有大洲的城市、自然景观和农业场景,确保数据的代表性和多样性。
  • 分辨率分布:包括从高分辨率(0.5m/pixel)到低分辨率(128m/pixel)图像的广泛分布,适应不同的生成任务需求。
  • 图像质量评估:使用审美评分模型评估图像增强前后的质量。增强后的图像质量显著提升,适合作为高可靠性的训练数据。
  • 文本丰富性:通过词云和长度分布分析,文本覆盖了多样化的概念和地物,表明其在语义上的广泛性和细致性。

6. 数据集优势

  • 全球覆盖:克服了现有数据集局限于特定区域的缺点,支持生成真实的全球遥感场景。
  • 分辨率多样性:为模型的分辨率控制能力提供了全面支持。
  • 高质量和多样性:经过严格筛选、处理和增强后的图像和文本,提升了数据的整体质量。

方法1. 模型架构

图片

Text2Earth 模型基于扩散框架,核心架构包括:

  • 变分自编码器 (VAE):用于压缩高分辨率图像到隐空间,提高计算效率。
  • 扩散模型:通过逐步去噪还原隐空间表示,生成高质量图像。
  • 条件嵌入机制:
  • 使用 OpenCLIP ViT-H 编码器将文本嵌入高维语义空间。
  • 分辨率信息通过嵌入模块与时间步信息结合,用于指导图像生成。
  • 交叉注意力机制:
  • 文本嵌入通过以下公式与隐变量结合,指导扩散过程:

图片

2. 动态条件适配策略 (DCA)

  • 训练中的动态条件丢弃:在训练过程中,随机丢弃一部分条件(文本描述或分辨率信息),让模型在部分或完全缺失条件的情况下学习生成能力。这种策略模拟了真实应用中条件信息不完整的场景,同时提升了模型的多样性和鲁棒性。
  • 推理中的条件指导:融合有条件和无条件预测,平衡生成图像的语义一致性和多样性。条件指导的公式如下:
  • 图片

3. 模型功能与任务

  • 零样本文本生成:根据用户输入文本生成多分辨率的真实遥感图像,无需场景特定的微调。
  • 无边界场景生成:支持通过迭代扩展生成超大规模场景图像。
  • 图像编辑:支持局部修改,如去云、地物替换、颜色变化。
  • 跨模态生成:包括基于文本生成多模态图像(RGB、NIR、SAR)及图像跨模态转换。

实验与分析精度对比

FID (Frechet Inception Distance) 是一种衡量生成模型(如 GAN 或扩散模型)生成的图像质量和多样性的重要指标。

图片

图片

可视化展示

多地理特征的零样本图像生成

图片

多分辨率

图片

图像编辑

图片

,时长00:13

无边界场景

图片

多模态和跨模态任务

图片

图片

更多图表分析可见原文。

#MagicMirror

贾佳亚团队新作:生成身份一致且高质量个性化视频,效果惊艳!

贾佳亚团队提出的新框架MagicMirror,用于生成身份一致且高质量的个性化视频。MagicMirror通过双分支面部特征提取器、轻量级跨模态适配器和两阶段训练策略,实现了在无需微调的情况下生成身份一致的视频。

文章链接:​​https://arxiv.org/pdf/2501.03931​

项目链接:​​https://julianjuaner.github.io/projects/MagicMirror/​

亮点直击

  • 提出了Magic Mirror,这是一种无需微调的新型框架,用于生成身份一致性的视频;
  • 设计了一种轻量级适配器,结合条件自适应归一化,实现面部嵌入在全注意力扩散Transformer架构中的有效融合;
  • 开发了一种数据集构建方法,通过合成数据生成和渐进式训练策略相结合,解决个性化视频生成中的数据稀缺问题。

总结速览

解决的问题

  • 当前视频生成方法在身份(ID)一致性和自然动态性之间难以平衡:
  • 现有方法需要针对特定人物进行微调,或在生成动态内容时无法保持身份一致性。
  • 多数方法生成的视频动态性不足,仅实现静态的“复制粘贴”。
  • 两阶段方法(图像个性化+图像到视频生成)在长序列生成中缺乏稳定性。
  • 现有视频生成模型(如全注意力的Video DiT)在文本-视频对齐优化中牺牲了空间保真度,导致细粒度身份特征难以保留。
  • 高质量、身份一致的图像-视频训练数据稀缺。

提出的方案

  • 提出 Magic Mirror 单阶段框架,用于生成高质量、身份一致且动态自然的视频。
  • 引入三个关键组件:
  • 利用身份一致的合成数据进行初步训练。
  • 在视频数据上进行细化训练,确保时序一致性。
  • 集成到CogVideoX框架中。
  • 采用 条件自适应归一化(CAN),高效融合身份信息。
  1. 双分支面部特征提取器:同时捕捉高层次身份特征和参考特定的结构信息。
  2. 轻量级跨模态适配器
  3. 两阶段训练策略

应用的技术

  • 构建于 Video Diffusion Transformer(Video DiT) 之上,优化动态视频生成。
  • 条件自适应归一化(CAN)模块
  • 融合身份条件,提供注意力引导和特征分布引导。
  • 数据合成策略:
  • 利用身份保留模型生成高质量图像-视频对。
  • 通过渐进式学习方法,先进行图像预训练,再进行视频微调。
  • 构建人类中心的视频生成测试集,用于评价生成质量和一致性。

达到的效果

  • 在身份一致性和自然动态性之间取得良好平衡:
  • 动态视频生成效果优于现有方法。
  • 在多项指标上表现优越,包括VBench等基准测试。
  • 通过无需人物特定微调的方法,实现个性化视频生成:
  • 保持面部一致性的同时,生成丰富的动态内容。
  • 低参数开销的同时实现高质量生成:
  • 为数字化创作提供更多个性化、动态化的表达方式。

Magic Mirror

Magic Mirror 的概览如下图 3 所示。该双分支框架从一个或多个参考图像 中提取面部身份特征。这些嵌入随后通过增强了轻量级跨模态适配器的 DiT 主干进行处理,并结合条件自适应归一化。该架构使 Magic Mirror 能够生成身份一致的文本到视频输出。

面部特征解耦提取

Magic Mirror 的面部特征提取组件如上图 3 左侧所示。给定一个身份参考图像  ,我们的模型使用基于混合查询的特征感知器提取面部条件嵌入: ,这些嵌入捕捉了高层次的身份特征和面部结构信息。

图片

其中, 表示从预训练的 CLIP ViT 特征提取器  中提取的密集特征图。两个感知器 和  使用标准的 Q-Former架构,并具有不同的查询条件  和  。其中, 是一个可学习的嵌入,用于面部结构提取,而  表示通过面部编码器  提取的高层次面部特征。每个感知器通过迭代更新的查询与密集特征之间的交叉注意力,获得压缩的特征嵌入。

这些压缩的嵌入通过一种解耦机制进行整合。参考最新的新概念定制方法,在输入提示  中与身份相关的token(例如"man","woman")处,将面部嵌入与文本嵌入融合,如公式(4)所示。一个融合 MLP  将  投射到文本嵌入空间中。用于 DiT 输入的最终文本嵌入计算如下:

其中, 表示一个token级的二进制mask,用于指示融合的token位置  。

条件自适应归一化

在获得了解耦的身份感知条件  后,需要解决将其高效整合到视频扩散Transformer中的挑战。传统的隐空间变量扩散模型,例如 Stable Diffusion,通过独立的交叉注意力机制进行条件注入,从而实现了通过解耦的交叉注意力对新条件的直接适配。这种方法得益于统一的条件输入(特别是文本条件  ),贯穿于所有交叉注意力层。

然而,本文的框架基于 CogVideoX,该框架采用跨模态全注意力范式,并使用逐层分布调制专家。这种架构选择在简单的交叉注意力增强之外,为适配新条件引入了额外的复杂性。

利用 CogVideoX 的逐层调制,提出了一种轻量级架构,该架构在保留模型时空关系建模能力的同时,引入了额外的条件。如下图4所示,面部嵌入  与文本和视频特征(  和  )通过全自注意力进行拼接。CogVideoX 采用模态特定的调制,其中因子  和  分别通过自适应归一化模块  应用于各自的特征。

为了适应面部模态,本文引入了一个专用的自适应归一化模块  ,对自注意力和前馈网络(FFN)之前的面部特征进行归一化。对应的调制因子集合  计算如下:

图片

其中, 表示时间嵌入, 表示层索引。令  表示块内操作,其中  表示注意力操作, 表示前馈网络(FFN)。操作  后的特征变换通过缩放  ,平移  和门控  计算表示为:

然后

其中,为简洁起见,省略了模态特定的下标。此外,为了增强特定参考身份(ID)的文本和视频隐空间变量的分布学习能力,引入了条件自适应归一化(CAN),其灵感来自类条件的 DiT 和 StyleGAN 的条件控制方法。CAN 为视频和文本模态预测分布偏移。

图片

这里, 作为分布标识符,用于更好地初始化 CAN 模块,而由 Eq.(4)得到的  表示融合 MLP 之前的面部嵌入。最终的调制因子通过残差加法计算:

这种条件偏移预测  适合采用 MLP 实现。为了补充条件归一化,增强了联合全自注意力  ,通过交叉注意力机制 TCA提升身份模态特征聚合。注意力输出  的计算公式为:

其中 TSA 是全自注意力, TCA 是条件交叉注意力, 表示输入特征, 表示条件输入嵌入。

图片

其中, 和  使用相同的查询投影  ,而交叉注意力中的键值投影  被重新初始化且可训练。

数据与训练

与诸如 Magic-Me 之类的微调方法相比,训练一个零样本定制适配器面临着独特的数据挑战。我们模型的全注意力架构不可分割地结合了空间和时间组件,因此需要采用两阶段训练策略。如下图 5 所示,首先在多样性和高质量数据集上训练,以培养稳健的身份保持能力。

渐进式训练pipeline利用多样化的数据集来增强模型性能,特别是在身份保持方面。对于图像预训练,首先使用 LAION-Face 数据集,该数据集包含大规模的网络真实图像,为生成自参考图像提供了丰富的资源。为了进一步增加身份的多样性,使用了 SFHQ 数据集,该数据集应用了标准文本提示的自参考技术。为了防止过拟合并促进生成多样化的脸部-头部运动,以 FFHQ 数据集为基础。从一个人像描述提示池中随机抽取文本提示,并使用 PhotoMaker-V2 生成身份条件的图像对,通过精心的筛选确保身份的相似性和多样性。

对于视频后训练,利用了高质量的 Pexels 和 Mixkit 数据集,以及从网络自采的小规模视频集合。同样地,与每个关键帧的面部参考对应的合成图像数据被生成为参考。组合数据集为模型在图像和视频上的训练提供了丰富的视觉内容。

目标函数结合了身份感知和通用去噪损失:

其中  表示去噪隐空间变量  的绝解码器, 为平衡因子。参考 PhotoMaker,在随机选择的 训练样本的面部区域内计算去噪损失。​

实验

实现细节

数据集准备如上图 5 所示,训练pipeline利用了自参考和合成配对的图像数据,以在初始训练阶段实现身份保持对齐。对于合成数据对(图 5 中标记为 C 和 D),采用 ArcFace 进行面部识别和检测,提取包括年龄、边界框坐标、性别和面部嵌入在内的关键属性。使用 PhotoMakerV2 生成参考帧。质量控制通过基于面部嵌入余弦相似度过滤图像对 {a, b} 实现,保留满足的数据对。对于文本条件,使用 MiniGemini-8B 为所有视频数据生成字幕,构建包含 29K 条提示的多样化提示池;在第二阶段训练中,CogVLM 提供视频描述。

训练细节
Magic Mirror 框架通过在交替的 DiT 层(即,所有偶数索引 的层中)集成面部特定模态适配器,扩展了 CogVideoX-5B。从预训练的 PhotoMakerV2中采用了特征提取器 和 ID 感知器 。

在图像预训练阶段,对适配器组件进行优化,运行 30K 次迭代,使用全局批量大小为 64。随后,为增强视频生成的时间一致性,进行了 5K 次迭代的视频微调,批量大小为 8。两个阶段均使用从 开始的衰减学习率。所有实验均在配备 8 个 NVIDIA A800 GPU 的单一计算节点上完成。

评估与比较将本文提出的方法与最先进的身份一致视频生成模型 ID-Animator 以及领先的图像到视频 (I2V) 框架(包括 DynamiCrafter、CogVideoX和 EasyAnimate)进行了对比评估。评估中使用了标准化的视频生成评测工具 VBench,以衡量运动质量和文本-运动对齐性能。对于身份保持,采用面部识别嵌入相似度 和面部运动指标进行评估。

评估数据集包括来自 VBench 的 40 个单角色提示(确保人口统计学的多样性)以及 40 个特定动作提示用于运动评估。身份参考从 PubFig 数据集中的 50 个面部身份中抽取,每个身份生成 4 个基于不同提示的个性化视频。

定量评估

定量结果总结在下表1中。使用VBench和EvalCrafter的通用指标评估生成的视频,包括:

  • 动态度:衡量生成视频中动作的程度。
  • 文本提示一致性:评估与给定文本描述的一致性。
  • Inception Score (IS) :评估生成视频内容的质量和多样性。

身份保持
对于身份保持,引入了平均相似度,它评估生成的面部与每个身份参考图像的平均相似度之间的距离。此方法避免了通过简单的复制粘贴策略获得人为的高分,如下图2所示。

面部运动指标面部运动使用两个指标进行评估:

  1. FMref:衡量生成面部与参考面部之间的相对距离。
  2. FMinter:评估连续帧之间的距离。

定性评估

除了下图1中展示的示例外,下图6中展示了比较结果。与传统的CogVideoX推理方法相比,本文的方法保持了较高的文本一致性、运动动态和视频质量。与现有的图像到视频方法相比,Magic Mirror展示了在各帧之间更好的身份一致性,同时保持了自然的运动。本文的方法还在动态范围和文本对齐方面优于ID-Animator,后者在运动变化和提示遵循方面存在一定的局限性。

为了补充定量指标,进行了全面的用户研究,评估生成结果的感知质量。该研究共涉及173名参与者,参与者评估了以下四个关键方面:运动动态、文本-运动对齐、视频质量和身份一致性。参与者按1-10分的尺度对每个方面进行评分,结果总结在下表2中。如表1所示的总体偏好评分,Magic Mirror在所有评估维度上始终优于基准方法,展示了其在人类评估中的卓越感知质量。

消融研究

与条件相关的模块
通过消融研究评估了关键架构组件,结果展示在下图7的左侧。没有参考特征嵌入分支时,模型失去了关键的高层次注意力引导,导致身份忠实度显著下降。条件自适应归一化(CAN)对于分布对齐至关重要,增强了跨帧的身份保持。下图8进一步展示了CAN在面部条件注入中的有效性,表明在图像预训练阶段,身份信息捕获的训练收敛性得到了改善。

训练策略上图7的右侧展示了不同训练策略的影响。图像预训练对于稳健的身份保持至关重要,而视频后训练确保了时间一致性。然而,仅在图像数据上训练会导致视频推理过程中出现颜色偏移伪影。这个伪影是由不同训练阶段中调制因子不一致造成的。我们的两阶段训练方法通过利用两个阶段的优势,生成具有高身份忠实度和动态面部运动的视频,达到了最佳结果。

讨论

计算开销

与基准模型相比,本文分析了生成一段49帧480P视频时的GPU内存利用、参数数量和推理延迟等计算要求。大多数附加参数集中在嵌入提取阶段,这只需要一次前向传递。因此,如下表3所示,Magic Mirror在GPU内存消耗和推理时间方面相较于基准模型引入了最小的计算开销。

特征分布分析

为了验证本文的条件自适应归一化机制,使用t-SNE可视化了预测的调制尺度因子σ,如下图9所示。分析揭示了跨Transformer层的不同分布模式,并且对时间步输入不敏感。面部模态展现了其特征性的分布。条件残差σ引入了与基线不同的目标分布偏移,实验证明,这改善了模型在身份条件下的收敛性。

限制与未来工作

尽管Magic Mirror在身份一致的视频生成方面表现强劲,但仍然面临一些挑战。首先,当前框架不支持多身份定制化生成。其次,本文的方法主要聚焦于面部特征,对于服饰和配件等细粒度属性的保持仍有改进空间。将身份一致性扩展到这些更广泛的视觉元素,代表了一个有前景的方向,适用于实际的多镜头定制视频生成。​

结论

Magic Mirror,一种zero-shot身份保持视频生成框架。Magic Mirror将双重面部嵌入和条件自适应归一化(CAN)集成到基于DiT的架构中。本文的方法能够实现稳健的身份保持和稳定的训练收敛。大量实验表明,Magic Mirror能够生成高质量的个性化视频,同时保持单一参考图像的身份一致性,在多个基准和人工评估中优于现有方法。

#简化 Transformer结构

同济提出简化 Transformer结构:在RTX3090上实现CLIP的轻量级训练 !

同济大学提出的一种简化Transformer结构的方法,通过在仅使用一块Nvidia RTX3090 GPU和一兆字节存储空间的情况下实现竞争性能。 

对比语言图像预训练(CLIP)因其卓越的零样本性能和优秀的迁移能力而受到了广泛关注。然而,训练这样的大型模型通常需要大量的计算和存储,这对一般用户(拥有消费级计算机)来说是一个障碍。

为了应对这一观察,本文探讨了如何在仅使用一块Nvidia RTX3090 GPU和一兆字节存储空间的情况下实现竞争性能。

一方面,作者简化了 Transformer 块结构,并将权重继承与多阶段知识蒸馏(WIKD)相结合,从而减少了参数并提高了训练和部署期间的推理速度。另一方面,面对小数据集带来的收敛挑战,作者为每个样本生成合成字幕作为数据增强,并设计了一种新颖的配对匹配(PM)损失,以充分利用正负图像文本对之间的区分。

大量实验表明,作者的模型可以在数据量-参数-精度之间实现新的最先进权衡,这可能进一步在相关研究社区中普及CLIP模型。

1 Introduction

预训练的大型图像文本基础模型,如对比语言图像预训练(CLIP)模型[28],最近在计算机视觉和自然语言处理领域引起了广泛关注。这些模型在广泛的下游任务上表现出出色的零样本性能和鲁棒性,例如图像文本检索和分类(朱等,2023年)。然而,CLIP类模型的巨大计算和存储成本阻碍了它们的进一步普及。例如,MobileCLIP [33]在256xA100 GPU上训练,全局批量为65,536,相应的数据集 DataCompDR-1B需要140 TB的本地存储空间。此外,巨大的参数大小(例如,CLIP-B/16模型[28]包含86.2M个图像编码器参数和63.4M个文本编码器参数)导致了推理延迟的增加,这为部署在计算资源有限的设备上带来了挑战。这些缺陷为没有足够计算资源和数据集的一般用户参与大规模模型的训练和部署设置了障碍。

在实际应用中,消费级计算机的GPU内存通常不超过24GB(例如,Nvidia RTX 3090),存储容量可能小于1TB。在这样资源限制的背景下训练CLIP类似的模型,需要解决两个主要问题。首先,必须尽可能减少需要训练的参数数量,同时保留尽可能多的现有模型知识。其次,小型数据集需要适当扩充,并需要开发更有效的方法,充分利用图像文本对在有限样本内的内部关联。

在这篇论文中,作者研究了如何使用仅有一个RTX3090显卡和1TB存储的轻量级CLIP模型训练方法,从而普及在消费级计算机上的CLIP类模型研究。为此,作者首先提出将传统的Transformer块简化为SAS-P块,并采用权重共享策略。然后,通过继承现有模型的权重并提取知识,可以进一步减少训练所需的参数数量。在数据集方面,作者选择广泛使用的CC12M [1]作为基础。该数据集不仅规模较小,而且标签质量低,这都为模型训练过程的收敛带来了困难。为了解决这个问题,作者对CC12M中的每个图像样本添加多个文本标签,创建了新的CC12M-SYN。此外,为了从这样的小数据集中提取有价值的信息,作者引入了Pair Matching (PM)损失,以帮助模型捕捉正负图像-文本对之间的区分。这些方法在作者的广泛实验中显著提高了模型训练的收敛速度。最后,通过在38个数据集上的性能比较(如图1所示),作者的提出的SiCLIP框架实现了新的数据量-参数-准确率权衡的最先进水平。

图片

作者的贡献:本工作的贡献可以概括如下:

作者提出了一个系统性的框架,用于在消费级计算机上训练轻量级CLIP模型,包括数据集构建和相应的训练过程,称为SiCLIP。在SiCLIP中,计算和存储成本得到了降低,同时保持了与其他大规模模型竞争的性能。

作者通过在SAS-P块之间共享权重来简化CLIP模型的结构,并将权重继承与多阶段知识蒸馏(WIKD)相结合,从而在训练和部署过程中降低了内存需求。

一种名为PM损失的新损失函数被设计出来,该函数在训练过程中预测图像-文本对是否匹配。结合作者增强的CC12M-SYN数据集,PM损失可以利用正负图像-文本对之间的区分。实验结果显示,新的数据集和PM损失都可以显著提高训练效率,同时略微增加数据集大小。

2 Related WorkEfficient Training for CLIP

自从CLIP作为一种大规模图像文本基础模型,在各种下游任务上展现出惊人的零样本性能以来,旨在提高其训练效率和模型大小的相关研究已经有很多。例如,包括细粒度图像文本对齐 [42],数据增强 [23, 20, 33],单模态自监督 [23, 20],以及图像文本标签空间中的对比学习 [39]。此外,Zhai等人 [45] 提出了一种对偶的Sigmoid损失作为对比损失的简单替代方案,在小型批量训练时证明了其有效性。然而,由于需要计算所有正负图像文本对之间的匹配对数,其可能导致二次计算复杂度。Li等人 [19] 使用了细粒度图像文本匹配(ITM)损失作为对比损失的补充,但ITM需要一个基于多层 Transformer 的编码器来编码多模态细粒度特征,这并不适合轻量级模型。

基于权重继承(WI)和知识蒸馏(KD)[13]的方法也被采用以实现高效的训练。TinyCLIP[36]通过跨模态亲和力模拟和WI训练紧凑的CLIP模型。杨等人[38]探讨了不同的KD方法对CLIP训练的有效性。

高质量的数据集对于有效的训练也非常重要。方等人在[6]中利用过滤方法去除噪声样本,Gadre等人[7]也提出了同样的方法。然而,剩余的描述性仍然不够。最近的研究[40; 18]表明,从预训练的描述生成模型中合成的合成描述可以提高数据集质量。

Simplifying the Transformer Architecture

近年来,随着 Transformer 在各种任务中的显著成功,许多努力都致力于简化 Transformer 架构以提高其训练和推理效率。余等人[44]证明了 Transformer 块的一般结构对其性能更为关键,因此可以消除基于注意力的 Token 混合器,这些混合器通常由于多头自注意力(MHSA)在长序列表示上的平方复杂度而变得 prohibitively 昂贵。此外,CNN和 Transformer 的前期研究都表明,浅层主要关注局部模式,而更深层则倾向于捕捉高级语义或全局关系[14; 37; 5],因此,在早期阶段通常不需要通过MHSA建模全局关系。基于这些事实,刘等人[22]提出了一种分层的 Transformer ,并采用移位窗口来限制自注意力计算限于非重叠的局部窗口,同时允许跨窗口连接,从而带来更高的效率。在另一项工作线中,潘等人[26]和郭等人[9]将卷积层引入到 Transformer 的前几层。在这些工作的基础上,瓦苏等人[32]提出了RepMixer作为 Token 混合器,它使用结构重参化通过在网络中删除 Short-Cut 来降低内存访问成本。

作为一种简单但有效轻量级方法,权重共享策略已在许多基于 Transformer 的模型中得到应用。Dehghani等人[3]首次提出了利用 Transformer 层进行自然语言处理任务的不同动机:他们将重复的网络层视为 Transformer 引入循环归纳偏置的一种互补方式,并观察到他们的方法在多个任务上优于原始 Transformer 。Jaegle等人[17]在多模态预训练中采用了交叉注意力层权重共享。Hernandez等人[12]探讨了在不同粒度 Level 上共享符合器[8]的不同部分,受模型大小硬约束。最近,He等人[10]通过信号传播理论研究了标准Pre-LN Transformer 块[34],并提出了一个配备形状注意力[25]的简化并行结构 Transformer 块作为 Token 混合器,称为简化注意力子块并行(SAS-P),在降低模型参数数量的同时,不损失语言下游任务的表现。作者的工作是首次尝试将SAS-P扩展到多模态领域,并通过在相邻块之间共享 Token 混合器的权重进一步简化。

3 Methods

在本节中,作者首先介绍了作者的简化模型结构,该结构通过共享SAS-P块的权重来实现。然后,作者介绍了一种名为WIKD的高效训练方法。接下来,作者介绍了一种新的损失函数,称为配对匹配(PM)损失,以进一步提高训练性能。最后,作者还通过在训练模型所使用的CC12M数据集中添加合成字幕,以提高数据多样性和数据质量,同时最小化附加存储空间。新的数据集称为CC12M-SYN。图2显示了作者的方法的整体框架。

图片

Simplifying Model Structure by Sharing Weights Among SAS-P Blocks

作者基于最新的MobileCLIP-S0模型[33]构建了作者的架构,并通过多种方式对其进行了增强。MobileCLIP-S0框架具有图像编码器(image encoder)和文本编码器(text encoder)的混合结构,其中包含基于卷积(convolution-based)和MHSA(Mobile Hyperspectral-to-Spatial Augmentation)的块的协同排列。然而,对于每个基于MHSA的块,MobileCLIP-S0仅采用标准的Pre-LN块,其中MHSA作为混合器(token mixer)[34],如图3(左)所示。

图片

作者首先从每个预连接块内的 Shortcut 参数开始减少。这些连接在内存访问和推理速度上造成了 Bottleneck ,因此,使用轻量级的基于MHSA的块设计变得至关重要。此外,已经证明,注意力模块的馈送层可以无缝集成到 Transformer 层中,而不会降低 Transformer 层的性能[31; 24]。

如图3右侧说明了SAS-P(He和Hofmann,2024年),这是一种简化的并行 Transformer 模块,在消除跳接连接的同时,还消除了值和投影参数。它使用形状注意力[25]作为其 Token 混合器,以防止在消除跳接连接后信号降解,使注意力矩阵更具标识性,从而保持良好的信号传播。形状注意力的注意力矩阵由:

图片

其中  表示 SAS-P 输入, 和  分别是 Query 和键矩阵, 是模型维数, 是单位矩阵, 是可学习的参数。 是中心矩阵,其中每个元素都设置为  是输入 Token的数量。在初始化时, 设置为  分别设置为 1 ,导致  和  ,这对于良好的信号传播是有效的。

SAS-P 在多个语言任务上表现出令人印象深刻的性能,同时比 Pre-LN 更快地推理速度,并使用较少的参数。为了进一步简化模型结构,作者评估了相邻基于MHSA的块之间的Jensen-Shannon(JS)离差(见图4)。低JS离差意味着在这些矩阵之间进行权重共享不会降低性能。因此,在训练期间使用KD之前,作者的"学生"模型用SAS-P块替换了所有的预LN块,并在这些块之间进行权重共享。结果,作者模型的图像编码器与MobileCLIP-S0相比大约有14%更少的参数,而在OpenAI-B/16[28]中只有11%。

为了从小型数据集中受益,一个广泛使用的方法是使用与任务相关的预训练 Backbone 网络,并添加一些任务特定的层[15]。受到使用 Backbone 网络思想的启发,作者采用WI[36]来训练CLIP在小型数据集上。在实际应用中,由于作者修改了MobileCLIP-S0结构的基于MHSA的模块,而保持基于RepMixer的模块不变(这些模块已经高效),作者可以直接从已经在大型数据集上预训练得很好的MobileCLIP-S0继承这些模块的权重。在这种情况下,继承的模块可以被视为“ Backbone ”。

然后,作者冻结这些继承的层,只在新添加的SAS-P块上在一个非常小的数据集上进行训练。应用上述方法可以减少梯度存储,从而允许作者使用更大的批量大小来保持对比学习的性能。此外,作者认为作者的模型是MobileCLIP-S0的移动模型,并在训练过程中进行多阶段知识蒸馏,从而进一步提高性能。具体而言,作者在单模态特征空间(阶段1)、对比关系空间(阶段2)和交互对比关系空间(阶段3)上应用知识蒸馏。对于一个图像文本对齐的批处理,学生模型首先通过优化特征蒸馏损失()模拟教师图像和文本特征分布:

图片

其中  和  分别表示教师模型和学生模型的(图像,文本)特征,其中  为批量大小。然后,它计算对比关系蒸馏损失  和交互对比关系损失  来模拟对比关系空间和交互对比关系空间的图像-文本相似矩阵分布,定义如下:

图片

作者的最终蒸馏损失定义为:

其中是一个可学习的温度参数,Sim 表示图像特征和文本特征之间的相似矩阵。

图片

λ1, λ2, λ3 均为超参数。

Pair Matching (PM) Loss

小型数据集训练的CLIP模型通常在零样本性能方面表现不佳[38]。作者认为这种现象的一个可能原因是,使用较少数据训练的模型在区分语义上相似的图像-文本对方面存在更大的困难。因此,作者提出构建一个辅助超平面来帮助模型判断图像-文本对是否匹配。请参阅图5。

图片

特别地,作者增加了一个额外的二进制匹配任务。给定一组图像-文本对,作者首先提取正面的图像-文本对,并计算它们的匹配对数  和  ,计算公式如下:

图片

关于负样本对,对于每个图像,作者根据图像到文本相似性矩阵(如果其嵌入相似,则选择一个负样本文本的概率较高)选择一个负文本。同样地,这个过程也应用于每个文本。因此,负匹配logits被定义为:

图片

因此,作者提出的PM损失函数可以表示为:

图片

CC12M-SYN Dataset

用于训练CLIP模型的图像文本数据集大多来源于互联网,其中包含固有的噪声样本,这些样本的描述性不足。当使用小型数据集时,数据样本的多样性和质量变得尤为重要。增加合成字幕是一种既便宜又有效的方法,可以提高多样性和质量。作者采用广泛使用的数据集CC12M [1],并使用coca [43]为该数据集中的每个图像生成多个合成字幕,得到CC12M-SYN。图6展示了CC12M-SYN中的一些带有合成字幕的示例。在训练过程中,作者随机选择一组原始和合成字幕中的一个文本。因此,CC12M-SYN中的一个样本包括一个图像和一个合成或原始的描述。

图片

4 ExperimentsImplementation Details

作者在第一万次训练迭代中采用了一个 Warm up 策略。作者使用了AdamW优化器,并将批量大小设置为1536,权重衰减设置为0.1。作者在Nvidia RTX3090上训练模型32个周期,学习率设置为0.001。在消融研究中,作者将周期数设置为9。作者采用MobileCLIP-S0作为WIKD的教师。对于超参数,作者设置λ1=4000,λ2=λ3=1,λ4=0.1。其他设置遵循CLIP-KD [38]。

作者在多个数据集上评估了零样本性能。具体来说,作者使用ImageNet-1k [4],ImageNet-V2 [29],ImageNet-R [11]和ImageNet-S [35]来评估零样本图像分类性能。对于零样本图像文本检索,作者使用MSCOCO [21]和Flickr30k [27]。默认为图像分类中的Top-1准确率(acc1)和图像文本检索中的R@1。

4.1.1 Data Augmentation.

作者应用了随机缩放(RandomResizedCrop)和随机裁剪(RandAugment)进行图像增强。在RandomResizedCrop中,作者将缩放比例设置为(0.08, 1.0),以在原始图像上进行强大的增强。然后,作者在处理后的图像上应用RandAugment,通过随机采用默认的31种增强方法([2])进一步增加图像的多样性。

Main Results4.2.1 Zero-shot image-text retrieval.

表1报告了在MSCOCO和Flickr30k上的零样本图像文本检索性能。与相似规模的训练数据集(最多2000万样本)上的模型相比,作者的模型在MSCOCO上超过了所有其他工作。对于Flickr30k,作者的模型在使用了较少的参数的同时,也实现了当前最先进模型TinyCLIP的性能。与在大规模数据集(400M-1B)上训练的模型相比,作者的模型在竞争性能上取得了良好的表现,并超越了许多现有工作。例如,与最先进的MobileCLIP-S0相比,作者的模型在使用了大约3%的训练样本和14%更少的图像编码器参数的情况下,T2I性能仅低约1%。此外,作者的模型在两个数据集的I2T和T2I指标上都超过了DataComp-B/32、OpenAI-X(除B/16)和LAION-B/32。

图片

4.2.2 Zero-shot image classification on ImageNet.

表2报告了零样本分类性能。与其他在相似规模的数据集上进行训练的模型相比,作者的模型在所有报告的数据集上都优于其他工作,这证明了作者的方法的有效性。对于大规模数据集,尽管与最新的state-of-the-art DataComp-B/16相比并非最佳,但作者与几项现有工作相比仍取得了一些具有竞争力的结果。

图片

4.2.3 Inference Speed.

为了评估推理速度,作者在CPU(Intel(R)-Xeon(R)-Silver-4314-CPU@2.40GHz)上进行了模拟实验,并比较了作者的模型与最先进的MobileCLIP系列[33]的平均推理速度。如表3所示,当输入序列包含1000张图像时,作者模型的处理速度达到39.5张/秒,略高于最先进的MobileCLIP-S0(38.2张/秒)。这表明采用SAS-P块的好处。

Ablation Studies4.3.1 Training Efficiency of CC12M-SYN.

为了证明CC12M-SYN的训练效率提升,作者在CC12M-SYN和CC12M上分别训练作者的模型20个周期。作者报告了前9个周期的平均损失曲线,以及最后周期的IN-1k和Flickr30k上的零样本性能。图7报告了CC12M和CC12M-SYN的损失曲线,显示在CC12M-SYN上训练导致损失更快减少。表4表明,在CC12M-SYN上训练的模型在零样本分类和零样本图像文本检索方面具有更好的性能。这些结果表明合成标签对于数据多样性和质量提升具有益处。

图片

图片

4.3.2 Analysis of WIKD and PM loss.

作者通过比较有无WIKD和PM损失的训练( Baseline )以及仅WI、仅WIKD和同时WIKD和PM损失的训练效果,来探索WIKD和PM损失的有效性。结果见表5。它表明,仅WI的训练可以提高零样本分类(+13.0和+6.1/+0.1在分类准确率acc1上)和图像文本检索(R@1的检索率+15.9/+15.2)。而当训练仅WIKD时,性能更高(+25.4和+15.9/+15.2,分别)。当同时训练WIKD和PM损失时,模型达到最高性能。这些结果明显证明了WIKD和PM损失的有效性。

图片

5 Conclusion

在这项工作中,作者提出了一系列技术,使得在消费级计算机上进行CLIP模型的训练和推理成为可能,同时实现了具有竞争力的性能。这对于将基础模型的卓越成果带到边缘设备上至关重要。

作者减少了模型结构,提高了推理速度。

此外,作者提出了WIKD和PM损失函数,这些损失函数对性能提升做出了贡献,并且可以用于简化其他领域中的模型。

最后,在增强的CC12M-SYN数据集上训练后,作者的模型在参数更少、训练数据集更小的情况下,与现有工作相比仍实现了具有竞争力的性能。

#关于视觉识别领域发展的个人观点!

华为天才少年谢凌曦

计算机视觉识别领域的发展如何?华为天才少年谢凌曦分享了万字长文,阐述了个人对其的看法。

最近,我参加了几个高强度的学术活动,包括CCF计算机视觉专委会的闭门研讨会和VALSE线下大会。经过与其他学者的交流,我产生了许多想法,千头万绪,便希望把它们整理下来,供自己和同行们参考。当然,受限于个人的水平和研究范围,文章中一定会存在许多不准确甚至错误的地方,当然也不可能覆盖所有重要的研究方向。我期待与有兴趣的学者们进行交流,以充实这些观点,更好地探讨未来发展方向。

在这篇文章中,我将会着重分析计算机视觉领域,特别是视觉感知(即识别)方向所面临的困难和潜在的研究方向。

相较于针对具体算法的细节改进,我更希望探讨当前算法(尤其是基于深度学习的预训练+微调范式)的局限性和瓶颈,并且由此得出初步的发展性结论,包括哪些问题是重要的、哪些问题是不重要的、哪些方向值得推进、哪些方向的性价比较低等。

在开始之前,我先画出如下思维导图。为了寻找合适的切入点,我将从计算机视觉和自然语言处理(人工智能中两个最受关注的研究方向)的区别开始谈起,引出图像信号的三个根本性质:信息稀疏性、域间差异性、无限粒度性,并将它们与几个重要的研究方向相对应。这样,我们就能更好地了解每个研究方向所处的状态:它已经解决了哪些问题、还有哪些重要的问题没有解决,然后针对性地分析今后的发展趋势。

导图:CV和NLP的差异、CV三大挑战及应对方法

CV的三大基本困难和对应研究方向

一直以来,NLP都走在CV的前面。不论是深度神经网络超越手工方法,还是预训练大模型开始出现大一统的趋势,这些事情都先发生在NLP领域,并在不久之后被搬运到了CV领域。这里的本质原因是NLP的起点更高:自然语言的基础单元是单词,而图像的基础单元是像素;前者具有天然的语义信息,而后者未必能够表达语义。

从根本上说,自然语言是人类创造出来,用于存储知识和交流信息的载体,所以必然具有高效和信息密度高的特性;而图像则是人类通过各种传感器捕捉的光学信号,它能够客观地反映真实情况,但相应地就不具有强语义,且信息密度可能很低。

从另一个角度看,图像空间比文本空间要大得多,空间的结构也要复杂得多。这就意味着,如果希望在空间中采样大量样本,并且用这些数据来表征整个空间的分布,采样的图像数据就要比采样的文本数据大许多个数量级。顺带一提,这也是为什么自然语言预训练模型比视觉预训练模型用得更好的本质原因——我们在后面还会提到这一点。

根据上述分析,我们已经通过CV和NLP的差别,引出了CV的第一个基本困难,即语义稀疏性。而另外两个困难,域间差异性和无限粒度性,也多少与上述本质差别相关。正是由于图像采样时没有考虑到语义,因而在采样不同域(即不同分布,如白天和黑夜、晴天和雨天等场景)时,采样结果(即图像像素)与域特性强相关,导致了域间差异性。同时,由于图像的基本语义单元很难定义(而文本很容易定义),且图像所表达的信息丰富多样,使得人类能够从图像中获取近乎无限精细的语义信息,远远超出当前CV领域任何一种评价指标所定义的能力,这就是无限粒度性。关于无限粒度性,我曾经写过一篇文章,专门讨论这个问题。

​https://zhuanlan.zhihu.com/p/376145664​

图片

以上述三大基本困难为牵引,我们将业界近年来的研究方向总结如下:

  • 语义稀疏性:解决方案为构建高效计算模型(神经网络)和视觉预训练。此处的主要逻辑在于,想要提升数据的信息密度,就必须假设数据的非均匀分布(信息论)并对其建模(即学习数据的先验分布)。目前,最为高效的建模方式有两类,一类是通过神经网络架构设计,来捕捉数据无关的先验分布(例如卷积模块对应于图像数据的局部性先验、transformer模块对应于图像数据的注意力先验);一类是通过在大规模数据上的预训练,来捕捉数据相关的先验分布。这两个研究方向,也是视觉识别领域最为基础、受到关注最多的研究方向。
  • 域间差异性:解决方案为数据高效的微调算法。根据以上分析,网络体量越大、预训练数据集体量越大,计算模型中存储的先验就越强。然而,当预训练域和目标域的数据分布具有较大差异时,这种强先验反而会带来坏处,因为信息论告诉我们:提升某些部分(预训练域)的信息密度,就一定会降低其他部分(预训练域没有包含的部分,即预训练过程中认为不重要的部分)的信息密度。现实中,目标域很可能部分或者全部落在没有包含的部分,导致直接迁移预训练模型的效果很差(即过拟合)。此时,就需要通过在目标域进行微调来适应新的数据分布。考虑到目标域的数据体量往往远小于预训练域,因而数据高效是必不可少的假设。此外,从实用的角度看,模型必须能够适应随时变化的域,因而终身学习是必须。
  • 无限粒度性:解决方案为开放域识别算法。无限粒度性包含开放域特性,是更高的追求目标。这个方向的研究还很初步,特别是业界还没有能被普遍接受的开放域识别数据集和评价指标。这里最本质的问题之一,是如何向视觉识别中引入开放域能力。可喜的是,随着跨模态预训练方法的涌现(特别是2021年的CLIP),自然语言越来越接近成为开放域识别的牵引器,我相信这会是未来2-3年的主流方向。然而,我并不赞成在追求开放域识别的过程中,涌现出的各种zero-shot识别任务。我认为zero-shot本身是一个伪命题,世界上并不存在也不需要zero-shot识别方法。现有的zero-shot任务,都是使用不同方法,将信息泄露给算法,而泄露方式的千差万别,导致不同方法之间难以进行公平对比。在这个方向上,我提出了一种被称为按需视觉识别的方法,以进一步揭示、探索视觉识别的无限粒度性。

这里需要做一个补充说明。由于数据空间大小和结构复杂度的差异,至少到目前为止,CV领域还不能通过预训练模型直接解决域间差异的问题,但是NLP领域已经接近了这一点。因此,我们看到了NLP学者们利用prompt-based方法统一了几十上百种下游任务,但是同样的事情在CV领域并没有发生。另外,在NLP中提出来的scaling law,其本质在于使用更大的模型来过拟合预训练数据集。也就是说,对于NLP来说,过拟合已经不再是一个问题,因为预训练数据集配合小型prompt已经足以表征整个语义空间的分布。但是,CV领域还没有做到这一点,因此还需要考虑域迁移,而域迁移的核心在于避免过拟合。也就是说,在接下来2-3年,CV和NLP的研究重心会有很大的差异,因而将任何一个方向的思维模式生搬硬套在另一个方向上,都是很危险的。

以下简要分析各个研究方向

方向1a:神经网络架构设计

2012年的AlexNet,奠定了深度神经网络在CV领域的基础。随后10年(至今),神经网络架构设计,经历了从手工设计到自动设计,再回到手工设计(引入更复杂的计算模块)的过程:

  • 2012-2017年,手工构建更深的卷积神经网络,探索一般优化技巧。关键词:ReLU、Dropout、3x3卷积、BN、跳跃连接,等。在这个阶段,卷积操作是最基本的单元,它对应于图像特征的局部性先验。
  • 2017-2020年,自动构建更复杂的神经网络。其中,网络架构搜索(NAS)盛行一时,最后定型为基础工具。在任意给定的搜索空间中,自动设计都能够达到稍微更好的结果,且能够快速适配不同的计算开销。
  • 2020年至今,起源于NLP的transformer模块从被引入CV,利用attention机制,补足了神经网络的远距离建模能力。如今,大部分视觉任务的最优结果,都借助于包含transformer的架构所达到。

对于这一方向的未来,我的判断如下:

  • 如果视觉识别任务没有明显改变,那么不论是自动设计,或者加入更复杂的计算模块,都无法将CV推向新的高度。视觉识别任务的可能改变,大致可以分为输入和输出两个部分。输入部分的可能改变如event camera,它可能会改变规则化处理静态或者时序视觉信号的现状,催生特定的神经网络结构;输出部分的可能改变,则是某种统一各种识别任务的框架(方向3会谈到),它有可能让视觉识别从独立任务走向大一统,从而催生出一种更适合视觉prompt的网络架构。
  • 如果一定要在卷积和transformer之间做取舍,那么transformer的潜力更大,主要因为它能够统一不同的数据模态,尤其是文本和图像这两个最常见也最重要的模态。
  • 可解释性是一个很重要的研究方向,但是我个人对于深度神经网络的可解释性持悲观态度。NLP的成功,也不是建立在可解释性上,而是建立在过拟合大规模语料库上。对于真正的AI来说,这可能不是太好的信号。

方向1b:视觉预训练

作为如今CV领域炙手可热的方向,预训练方法被寄予厚望。在深度学习时代,视觉预训练可以分为有监督、无监督、跨模态三类,大致叙述如下:

  • 有监督预训练的发展相对清晰。由于图像级分类数据最容易获取,因此早在深度学习爆发之前,就有了日后奠定深度学习基础的ImageNet数据集,并被沿用至今。ImageNet全集超过1500万的数据规模,至今没有被其他非分类数据集所超越,因此至今仍是有监督预训练上最常用的数据。另外一个原因,则是图像级分类数据引入了较少bias,因而对于下游迁移更加有利——进一步减少bias,就是无监督预训练。
  • 无监督预训练,则经历了曲折的发展历程。从2014年开始,出现了第一代基于几何的无监督预训练方法,如根据patch位置关系、根据图像旋转等进行判断,同时生成式方法也在不断发展(生成式方法可以追溯到更早的时期,此处不赘述)。此时的无监督预训练方法,还显著地弱于有监督预训练方法。到了2019年,对比学习方法经过技术改进,首次显现出在下游任务上超越有监督预训练方法的潜力,无监督学习真正成为CV界关注的焦点。而2021年开始,视觉transformer的兴起催生了一类特殊的生成式任务即MIM,它逐渐成为统治性方法。
  • 除了纯粹的有监督和无监督预训练,还有一类介于两者之间的方法,是跨模态预训练。它使用弱配对的图像和文本作为训练素材,一方面避免了图像监督信号带来的bias,一方面又比无监督方法更能学习弱语义。此外,在transformer的加持下,视觉和自然语言的融合也更自然、更合理。

基于上述回顾,我做出如下判断:

  • 从实际应用上看,应该将不同的预训练任务结合起来。也就是说,应当收集混合数据集,其中包含少量有标签数据(甚至是检测、分割等更强的标签)、中量图文配对数据、大量无任何标签的图像数据,并且在这样的混合数据集上设计预训练方法。
  • 从CV领域看,无监督预训练是最能体现视觉本质的研究方向。即使跨模态预训练给整个方向带来了很大的冲击,我依然认为无监督预训练非常重要,必须坚持下去。需要指出,视觉预训练的思路很大程度上受到了自然语言预训练的影响,但是两者性质不同,因而不能一概而论。尤其是,自然语言本身是人类创造出来的数据,其中每个单词、每个字符都是人类写下来的,天然带有语义,因此从严格意义上说,NLP的预训练任务不能被视为真正的无监督预训练,至多算是弱监督的预训练。但是视觉不同,图像信号是客观存在、未经人类处理的原始数据,在其中的无监督预训练任务一定更难。总之,即使跨模态预训练能够在工程上推进视觉算法,使其达到更好的识别效果,视觉的本质问题还是要靠视觉本身来解决。
  • 当前,纯视觉无监督预训练的本质在于从退化中学习。这里的退化,指的是从图像信号中去除某些已经存在的信息,要求算法复原这些信息:几何类方法去除的是几何分布信息(如patch的相对位置关系);对比类方法去除的是图像的整体信息(通过抽取不同的view);生成类方法如MIM去除的是图像的局部信息。这种基于退化的方法,都具有一个无法逾越的瓶颈,即退化强度和语义一致性的冲突。由于没有监督信号,视觉表征学习完全依赖于退化,因此退化必须足够强;而退化足够强时,就无法保证退化前后的图像具有语义一致性,从而导致病态的预训练目标。举例说,对比学习从一张图像中抽取的两个view如果毫无关系,拉近它们的特征就不合理;MIM任务如果去除了图像中的关键信息(如人脸),重建这些信息也不合理。强行完成这些任务,就会引入一定的bias,弱化模型的泛化能力。未来,应该会出现一种无需退化的学习任务,而我个人相信,通过压缩来学习是一条可行的路线。

方向2:模型微调和终身学习

作为一个基础问题,模型微调已经发展出了大量的不同的setting。如果要把不同的setting统一起来,可以认为它们无非考虑三个数据集,即预训练数据集 Dpre (不可见)、目标训练集 Dtrain 、目标测试集 Dtest (不可见且不可预测)。根据对三者之间关系的假设不同,比较流行的setting可以概括如下:

  • 迁移学习:假设Dpre或者 Dtrain 和 Dtest 的数据分布大不相同;
  • 弱监督学习:假设Dtrain只提供了不完整的标注信息;
  • 半监督学习:假设Dtrain只有部分数据被标注;
  • 带噪学习:假设Dtrain的部分数据标注可能有误;
  • 主动学习:假设Dtrain可以通过交互形式标注(挑选其中最难的样本)以提升标注效率;
  • 持续学习:假设不断有新的 Dtrain 出现,从而学习过程中可能会遗忘从 Dpre 学习的内容;
  • ……

从一般意义上说,很难找到统一的框架来分析模型微调方法的发展和流派。从工程和实用角度看,模型微调的关键在于对域间差异大小的事先判断。如果认为 Dpre 和 Dtrain 的差异可能很大,就要减少从预训练网络中迁移到目标网络中权重的比例,或者增加一个专门的head来适应这种差异;如果认为 Dtrain 和 Dtest 的差异可能很大,就要在微调过程中加入更强的正则化以防止过拟合,或者在测试过程中引入某种在线统计量以尽量抵消差异。至于上述各种setting,则分别有大量研究工作,针对性很强,此处不再赘述。

关于这个方向,我认为有两个重要问题:

  • 从孤立的setting向终身学习的统一。从学术界到工业界,必须抛弃“一次性交付模型”的思维,将交付内容理解为以模型为中心,配套有数据治理、模型维护、模型部署等多种功能的工具链。用工业界的话说,一个模型或者一套系统,在整个项目的生命周期中,必须得到完整的看护。必须考虑到,用户的需求是多变且不可预期的,今天可能会换个摄像头,明天可能会新增要检测的目标种类,等等。我们不追求AI能自主解决所有问题,但是AI算法应该有一个规范操作流程,让不懂AI的人能够遵循这个流程,新增他们想要的需求、解决平时遇到的问题,这样才能让AI真正平民化,解决实际问题。对于学术界,必须尽快定义出符合真实场景的终身学习setting,建立起相应的benchmark,推动这一方向的研究。
  • 在域间差异明显的情况下,解决大数据和小样本的冲突。这又是CV和NLP的不同点:NLP已经基本不用考虑预训练和下游任务的域间差异性,因为语法结构和常见单词完全一样;而CV则必须假设上下游数据分布显著不同,以致于上游模型未经微调时,在下游数据中无法抽取底层特征(被ReLU等单元直接滤除)。因此,用小数据微调大模型,在NLP领域不是大问题(现在的主流是只微调prompt),但是在CV领域是个大问题。在这里,设计视觉友好的prompt也许是个好方向,但是目前的研究还没有切入核心问题。

方向3:无限细粒度视觉识别任务

关于无限细粒度视觉识别(以及类似的概念),目前还没有很多相关的研究。所以,我以自己的思路来叙述这个问题。我在今年VALSE报告上,对已有方法和我们的proposal做了详细解读。以下我给出文字叙述,更详细的解读请参考我的专题文章或者我在VALSE上做的报告:

​https://zhuanlan.zhihu.com/p/546510418​

​https://zhuanlan.zhihu.com/p/555377882​

首先,我要阐述无限细粒度视觉识别的含义。简单地说,图像中包含的语义信息非常丰富,但不具有明确的基本语义单元。只要人类愿意,就可以从一张图像中识别出越来越细粒度的语义信息(如下图所示);而这些信息,很难通过有限而规范的标注(即使花费足够多的标注成本),形成语义上完整的数据集,供算法学习。

即使如ADE20K这样的精细标注数据集,也缺少了大量人类能够识别的语义内容

我们认为,无限细粒度视觉识别是比开放域视觉识别更难,也更加本质的目标。我们调研了已有识别方法,将其分为两类,即基于分类的方法和语言驱动的方法,并论述它们无法实现无限细粒度的理由。

  • 基于分类的方法:这包括传统意义上的分类、检测、分割等方法,其基本特点是给图像中的每个基本语义单元(图像、box、mask、keypoint等)赋予一个类别标签。这种方法的致命缺陷在于,当识别的粒度增加时,识别的确定性必然下降,也就是说,粒度和确定性是冲突的。举例说,在ImageNet中,存在着“家具”和“电器”两个大类;显然“椅子”属于“家具”,而“电视机”属于“家电”,但是“按摩椅”属于“家具”还是“家电”,就很难判断——这就是语义粒度的增加引发的确定性的下降。如果照片里有一个分辨率很小的“人”,强行标注这个“人”的“头部”甚至“眼睛”,那么不同标注者的判断可能会不同;但是此时,即使是一两个像素的偏差,也会大大影响IoU等指标——这就是空间粒度的增加引发的确定性的下降。
  • 语言驱动的方法:这包括CLIP带动的视觉prompt类方法,以及存在更长时间的visual grounding问题等,其基本特点是利用语言来指代图像中的语义信息并加以识别。语言的引入,确实增强了识别的灵活性,并带来了天然的开放域性质。然而语言本身的指代能力有限(想象一下,在一个具有上百人的场景中指代某个特定个体),无法满足无限细粒度视觉识别的需要。归根结底,在视觉识别领域,语言应当起到辅助视觉的作用,而已有的视觉prompt方法多少有些喧宾夺主的感觉。

上述调研告诉我们,当前的视觉识别方法并不能达到无限细粒度的目标,而且在走向无限细粒度的路上还会遭遇难以逾越的困难。因此,我们我们想分析人是如何解决这些困难的。首先,人类在大多数情况下并不需要显式地做分类任务:回到上述例子,一个人到商场里买东西,不管商场把“按摩椅”放在“家具”区还是“家电”区,人类都可以通过简单的指引,快速找到“按摩椅”所在的区域。其次,人类并不仅限于用语言指代图像中的物体,可以使用更灵活的方式(如用手指向物体)完成指代,进而做更细致的分析。

结合这些分析,要达到无限细粒度的目标,必须满足以下三个条件。

  • 开放性:开放域识别,是无限细粒度识别的一个子目标。目前看,引入语言是实现开放性的最佳方案之一。
  • 特异性:引入语言时,不应被语言束缚,而应当设计视觉友好的指代方案(即识别任务)。
  • 可变粒度性:并非总是要求识别到最细粒度,而是可以根据需求,灵活地改变识别的粒度。

在这三个条件的牵引下,我们设计出了按需视觉识别任务。与传统意义上的统一视觉识别不同,按需视觉识别以request为单位进行标注、学习和评测。当前,系统支持两类request,分别实现了从instance到semantic的分割、以及从semantic到instance的分割,因而两者结合起来,就能够实现任意精细程度的图像分割。按需视觉识别的另一个好处在于,在完成任意数量的request之后停止下来,都不会影响标注的精确性(即使大量信息没有被标注出来),这对于开放域的可扩展性(如新增语义类别)有很大的好处。具体细节,可以参看按需视觉识别的文章(链接见上文)。

统一视觉识别和按需视觉识别的对比

在完成这篇文章之后,我还在不断思考,按需视觉识别对于其他方向的影响是什么。这里提供两个观点:

  • 按需视觉识别中的request,本质上是一种视觉友好的prompt。它既能够达到询问视觉模型的目的,又避免了纯语言prompt带来的指代模糊性。随着更多类型的request被引入,这个体系有望更加成熟。
  • 按需视觉识别,提供了在形式上统一各种视觉任务的可能性。例如,分类、检测、分割等任务,在这一框架下得到了统一。这一点可能对视觉预训练带来启发。目前,视觉预训练和下游微调的边界并不清楚,预训练模型究竟应该适用于不同任务,还是专注于提升特定任务,尚无定论。然而,如果出现了形式上统一的识别任务,那么这个争论也许就不再重要。顺便说,下游任务在形式上的统一,也是NLP领域享有的一大优势。

在上述方向之外

我将CV领域的问题分为三大类:识别、生成、交互,识别只是其中最简单的问题。关于这三个子领域,简要的分析如下:

  • 在识别领域,传统的识别指标已经明显过时,因此人们需要更新的评价指标。目前,在视觉识别中引入自然语言,是明显且不可逆的趋势,但是这样还远远不够,业界需要更多任务层面的创新。
  • 生成是比识别更高级的能力。人类能够轻易地识别出各种常见物体,但是很少有人能够画出逼真的物体。从统计学习的语言上说,这是因为生成式模型需要对联合分布 p(x,y) 进行建模,而判别式模型只需要对条件分布 p(y|x) 进行建模:前者能够推导出后者,而后者不能推导出前者。从业界的发展看,虽然图像生成质量不断提升,但是生成内容的稳定性(不生成明显非真实的内容)和可控性仍有待提升。同时,生成内容对于识别算法的辅助还相对较弱,人们还难以完全利用虚拟数据、合成数据,达到和真实数据训练相媲美的效果。对于这两个问题,我们的观点都是,需要设计更好、更本质的评价指标,以替代现有的指标(生成任务上替代FID、IS等,而生成识别任务需要结合起来,定义统一的评价指标)。
  • 1978年,计算机视觉先驱David Marr设想,视觉的主要功能,在于建立环境的三维模型,并且在交互中学习知识。相比于识别和生成,交互更接近人类的学习方式,但是现在业界的研究相对较少。交互方向研究的主要困难,在于构建真实的交互环境——准确地说,当前视觉数据集的构建方式来源于对环境的稀疏采样,但交互需要连续采样。显然,要想解决视觉的本质问题,交互是本质。虽然业界已经有了许多相关研究(如具身智能),但是还没有出现通用的、任务驱动的学习目标。我们再次重复计算机视觉先驱David Marr提出的设想:视觉的主要功能,在于建立环境的三维模型,并且在交互中学习知识。计算机视觉,包括其他AI方向,都应该朝着这个方向发展,以走向真正的实用。

总之,在不同子领域,单纯依靠统计学习(特别是深度学习)的强拟合能力的尝试,都已经走到了极限。未来的发展,一定建立在对CV更本质的理解上,而在各种任务上建立更合理的评价指标,则是我们需要迈出的第一步。

结语

经过几次密集的学术交流,我能够明显地感受到业界的迷茫,至少对于视觉感知(识别)而言,有意思、有价值的研究问题越来越少,门槛也越来越高。这样发展下去,有可能在不久的将来,CV研究会走上NLP的道路,逐渐分化成两类:

一类使用巨量计算资源进行预训练,不断空虚地刷新SOTA;一类则不断设计出新颖却没有实际意义的setting以强行创新。这对于CV领域显然不是好事。为了避免这种事情,除了不断探索视觉的本质、创造出更有价值的评测指标,还需要业界增加宽容性,特别是对于非主流方向的宽容性,不要一边抱怨着研究同质化,一边对于没有达到SOTA的投稿痛下杀手。当前的瓶颈是所有人共同面对的挑战,如果AI的发展陷入停滞,没有人能够独善其身。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值