本期论文:
@article{Dai2020CrossModalGN,
title={Cross-Modal Guidance Network For Sketch-Based 3d Shape Retrieval},
author={Weidong Dai and Shuang Liang},
journal={2020 IEEE International Conference on Multimedia and Expo (ICME)},
year={2020},
pages={1-6}
}
本文的创新点
- 将基于草图的三维模型检索任务分为两个步骤:
1.三维模型的分类
2.二维草图的特征转移 - 提出一个跨模型引导网络(CGN)用来做基于草图的三维模型检索任务,发挥预先学习的三维模型的特征空间的优势来引导草图的特征学习,有效的减少了跨模态差异。
-本文的模型在SHREC‘13和SHREC’14两个数据集上取得了不错的性能。
知识蒸馏
知识蒸馏主要是提出一个特征转移的模型——通过依靠在一个强有力的教师网络中学习到的知识来提升学生网络的训练。相关论文链接如下:
Distilling the knowledge in a neural network
Model compression
在本文中,作者将蒸馏网络的模型推动进入基于草图的三维模型检索来有效减少跨模态的差异。
模型框架
本文提出的模型主要是由“老师”/分类网络,学生“转移”网络,和预先学习的三维模型的特征空间三部分组成。
Pipeline:
-
首先,本文通过训练教师网络来学习三维模型的形状,在这个工作之前,先获取12个角度下三维模型的二维投影视图,随后多个Views分别通过CNN-2,所有分支的CNN-2参数是共享的。采用AM-Softmax来作为分类网络的损失函数,AM-Softmax函数可以扩大类间距离,而缩小类内距离。AM-Softmax更多解释如下文所示:
AM-Softmax
在CNN-2的输出后采用一个平均池化层用来融合特征。在教师网络的训练后,三维模型的训练数据再一次经过教师网络,并且通过FCN-2后提取到的特征来获得预先学习的三维模型的特征空间。最终,我们通过计算同一类特征的平均值来,获得每一个类的类心。 -
我们在预先学习到的三维模型的类心的引导下训练学生网络,在本文提出的引导损失函数的监督下将草图的特征转移到预先学习的特征空间中。
-
测试阶段,查询草图的特征和三维模型分别在FCN-1和FCN-2后被抽取得到,然后查询草图和相应三维模型的相似性被计算得到并进行排序,我们采用余弦距离来计算相似度。
引导损失函数
为了有效的约束草图的特征传递,本文构建了如下的损失函数来优化学生网络:
L
G
=
L
c
−
λ
L
a
L_{G} = L_{c} - λL_{a}
LG=Lc−λLa
L G L_{G} LG是引导损失,而 L c L_{c} Lc是同一类的草图和预先学习的三维模型的类心的余弦距离。 L a L_{a} La代表了草图特征和其他类心的余弦距离之和, λ是平衡 L c L_{c} Lc和 L a L_{a} La的超参数。
Lc的计算公式如下:
而La的被限定如下:
M是mini-batch的大小,N是类别的数量,fi是草图的特征向量,yi代表第i个样本的标签。{ c1,c2,c3,…,cN}代表预先学习的三维向量的类心。
引导损失函数旨在将草图的特征聚类到同一类中的三维形状的类中心,同时使这些特征远离不同类的类中心。总之,它约束了对草图的学习,将草图特征转移到预先学习到的三维形状的特征空间中,从而实现了跨模态特征的语义对齐。因此,减少了二维草图和三维形状之间的跨模态差异。
实验结果
在SHREC’13和SHREC’14上所得的测试结果分别如下:
在采取不同的特征提取网络时,所得到的测试结果。可以看到本文的模型在用到ResNet50时,效果最佳
消融实验
本文就谁更适合作为教师网络的问题上展开了讨论,经过在SHREC’14上进行结果对比,发现本文提出的方法更佳,因为草图表述的信息更为有限,也较为抽象。所以用三维模型做‘教师’网络时表现性能更佳。