triplet-based network介绍

最新推荐文章于 2024-04-27 09:57:21 发布

海渺与群

最新推荐文章于 2024-04-27 09:57:21 发布

阅读量1.7k

点赞数

分类专栏：人工智能文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_43722782/article/details/103118601

版权

人工智能专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

目的
方法
总结

本篇文章基于Learning Fine-grained Image Similarity with Deep Ranking。

目的

个性化推荐，即用户给出一个图片，系统需要给出与这张图片相似的一些图片。用分类方法去做存在的问题是分类算法认为同一类的就相似，而没有更细粒度的辨别。

方法

三元组

对于所有的图片，网络的输入为一个含有三个图片的三元组，比如 $t_i=(p_i,p_i^+,p_i^-)$ ，其中 $p_i$ 称为query imgage， $p_i^+$ 是一个和 $p_i$ 一类的图片， $p_i^-$ 是和 $p_i$ 不一类的图片，也就是 $p_i^+$ 比 $p_i^-$ 更加和 $p_i$ 近似。见下图，从上到下依次为 $p_i$ ， $p_i^+$ , $p_i^-$ 。
论文中进行实验所获得的数据是这样获得的：利用google搜索引擎进行了100000次关键字搜索，对于每次搜索选择前140个图片，并定义了各个图片之间的关系 $r_{i,j}$ ，若 $i$ 和 $j$ 不是同一次搜索出来的，那么 $r_{i,j}=0$ ，否则利用27种特征进行线性组合来决定 $r_{i,j}$ 的大小。

这里引入一个新的问题，就是三元组如何选择的问题，论文中给出来的是方法如下：

计算每个图片的分数 $r_i=\sum_{j:c_j=c_i,j\neq i}r_{i,j}$ ， $c_i$ 是图片的类别，即某张图片的分数等于和它同类的图片的所有关系之和。
随机选择一个图片作为query image，每个图片选择的概率为该图片的分数除以所有图片的总分数。
随机选择一个 $p_i^+$ ，其中选择 $p_i^+$ 的概率为：
$P(p_i^+)=\frac{min\{T_p,r_{i,i^+}\}}{\sum_{i^+}P(p_i^+)}$
即希望选一个和 $p_i$ 关系更近的。
选择 $p_i^-$ ，显然 $p_i^-$ 有两种情况，一种是和 $p_i$ 不是一个类别的，另一种是一个类别的。要求三元组满足以下式子，否则认为这个三元组不合法。
$r_{i,i^+}-r_{i,i^-}>=T_r$
其中 $T_r$ 也是一个阈值。

因而如何选择三元组是这个算法所需要考虑的一个问题。

embedding

将一个图片转换成一个低维的表示，即为embedding。对于给定的输入（如 $p_i$ ），用 $f(p_i)$ 表示转换后的一维向量。该篇论文是用的神经网络做embedding。

损失函数

损失函数记为 $l(p_i,p_i^+,p_i^-)=max\{0,g+D(f(p_i),f(p_i^+))-D(f(p_i),f(p_i^-))\}$ ，其中D表示两个向量之间的l2范数，这个损失函数从直观来理解就是希望三种图片经过特征提取后（或embedding）后 $p_i$ 和 $p_i^-$ 的差别比 $p_i$ 和 $p_i^+$ 的差别至少大g，（g是一个超参数）。
其中pytorch中定义了这种损失函数：

class torch.nn.MarginRankingLoss(margin=0, size_average=True)
创建一个标准，给定输入 x1,x2两个1-D mini-batch Tensor's，和一个y(1-D mini-batch tensor) ,y里面的值只能是-1或1。

如果 y=1，代表第一个输入的值应该大于第二个输入的值，如果y=-1的话，则相反。

mini-batch中每个样本的loss的计算公式如下：

loss(x,y)=max(0,−y∗(x1−x2)+margin)
如果size_average=True,那么求出的loss将会对mini-batch求平均，反之，求出的loss会累加。默认情况下，size_average=True。

接下来给出一个样例：
triplet_loss = nn.TripletMarginLoss(margin=1.0, p=2)
input1 = autograd.Variable(torch.randn(100, 128))
input2 = autograd.Variable(torch.randn(100, 128))
input3 = autograd.Variable(torch.randn(100, 128))
output = triplet_loss(input1, input2, input3)
output.backward()

网络结构

见下图，可以看出是从所有的图片首先进行一个Triplet sampling Layer筛选三元组的工作，然后将 $p_i$ ， $p_i^-$ ， $p_i^+$ 分别送入网络中做embedding，将得到的结果送入ranking layer，ranking layer只是计算损失函数，然后将梯度反向传播。
在这里插入图片描述
论文中做embedding的网络采用的是下图的网络，可以看出输出是一个4096的一维向量。（论文中这个ConvNet网络是预先用ImageNet数据进行训练过的）。

评估

在该论文中，为了寻找有label的数据，特意又从google上进行了1000此次搜索，每次搜索选前50张，然后构造三元组，用人工的方式决定每个三元组属于的情况：

A和B一样接近于query image Q
A和B都不接近与query image Q
A比B接近于query image Q
B比A接近于query image Q

然后只保留第三种和第四种三元组，因为前两种对于排名没有任何意义。
测试数据构造好以后，有以下两种评估方式可以评估模型的好坏。

给定一个合法的三元组，要求模型经过embedding后在ranking layer $D(f(p_i),f(p_i^+))<D(f(p_i),f(p_i^-))$ ，即可以判断出 $p_i^+$ 更接近于 $p_i$ ，并计算正确分类的比例。
score-at-top-k，对于一个query image，重新获得1000张与该图片属于一个搜索关键字的图片，并将这些图片进行embedding，选出前k个与query image相似度最大的图片，然后看k个有多少个排名成功。（k一般取30）。

总结

这种网络所需要考虑的问题主要是怎样进行一个三元组的挑选，以及怎样进行一个最终结果的评估。

海渺与群

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
triplet-based network介绍

本文章主要讲解triplet-based network，基于Learning Fine-grained Image Similarity with Deep Ranking。
复制链接

扫一扫