DreamSim Learning New Dimensions of Human Visual Similarity using Synthetic Data

DreamSim: Learning New Dimensions of Human Visual Similarity using Synthetic Data

TL; DR:使用 SD 机造接近的图像并进行人工标注,用以针对人眼感知相似度,对模型进行评估和训练。


方法

目前已有的图像相似度评估方法/指标,要么是过于关注底层的纹理细节(如 PSNR、L1、L2),要么过于关注高层语义信息(如 CLIP)。本文提出关注 ”中层特征“ 的新指标 DreamSim,关注前景、语义信息等高层特征的同时兼顾色彩、构图等人眼感知特征。更好地对齐人眼对图像相似度的感知。

在这里插入图片描述

数据集构建

首先选取开源数据集(ImageNet、CIFAR、Flower 102、Food 101 等)中的一些类别(category),构造文本提示词 An image of a <category>。使用 SD 生成了 10w 张三元组图像 <ref_img, img1, img2>。然后人工标注 img1 和 img2 哪张与 ref_img 更接近,即 2AFC(其实就是二选一)。并结合了 JND(Just Noticable Difference),即人眼刚好可察觉的差异。每个三元组会经过 10 次标注,只有当某个选项被选中次数大于 6 次时才会被选为样本。并设置哨兵三元组:<img1, img1, img2> 如果在哨兵三元组中选错了,就不用这个标注员的标注结果了。

最终构建出了 20019 个三元组数据。

训练

集成了 CLIP、DINO 等多个模型,损失函数是 hinge loss。
L ( y , y ^ ) = max ⁡ ( 0 ,   m − Δ d ⋅ y ^ ) ,      Δ d = d 0 − d 1 \mathcal{L}(y,\hat{y})=\max(0,\ m-\Delta d\cdot\hat{y}),\ \ \ \ \Delta d =d_0-d_1 L(y,y^)=max(0, mΔdy^),    Δd=d0d1

在这里插入图片描述

总结

图像相似度是在业务应用上是很常见的。CLIP 监督粒度太粗,只关注高层语义,不太适合人眼感知相似度的计算。本文利用 SD 机造数据,并人工标注,是目前比较高效的图像相似度数据集构建方式。这也再次体现出有了足够强的条件生图模型之后,机造图像数据在监督粒度把控上的优势。通过控制生图提示词等条件,(有时需配合人工标注)我们可以灵活地构造出各种监督粒度的数据。

  • 11
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值