论文题目
Learning a Neural-network-based Representation for Open Set Recognition——SDM19
论文链接
文章背景、解决问题:
本文提出了一种基于神经网络的表示来解决开放集识别问题。在这个表示实例中,来自同一个类的实例彼此接近,而来自不同类的实例则进一步分离。(一种基于神经网络的表示法和一种利用这种表示法进行开放集识别的机制)
开放集识别:并非所有类别在train期间都是已知的,并且系统需要适当地处理test期间可能出现的新的/未知类别的实例。
开放集识别系统分为两个类型:
(1)第一种类型提供了区分已知类实例和未知类实例的机制。
(2)第二类开放集识别系统除了识别未知的类实例之外,还提供了区分已知类的能力。
对于开放集识别,给定一组属于已知类实例,学习一种能够准确地将未知实例分类为已知类或unknown类之一的函数。
实现方案:
(a)学习表示:方法的目的是学习一种便于open set识别的表示。
神经网络中的隐层 可视为X向量的不同表示形式。(这个表示的作用是让同一类的实例更接近,不同类的实例更相距,这两个属性可以使已知类之间的较大空间,以供未知类的实例使用。)
表示方法:使用具有非线性投影的神经网络来学习这种表示。g可以是卷积层和完全连接层的组合,也可以是完全连接的层。
b) II-Loss Function:
目标是最大化不同类之间的距离(类间分离),并将实例与类均值(类内扩展)的距离最小化。
intra_spread(类内的距离):实例与类平均距离的平均值。
inter_sparation(类间的距离):用所有k个已知类之间最近的两类均值之间的距离来度量。
(c) ii-loss只是使得类间更大,类内更小,并未考虑分类的误差。
使用了cross-entropy loss。
在每一次训练迭代中,首先更新网络权重以最小化对ii-loss的影响,然后在单独的步骤中更新网络权重,以最小化交叉熵损失。
(d)Outlier Score for Open Set Recognition:
在测试过程中,使用一个离群点得分来表示网络预测一个实例x成为一个离群点的程度。
e) Threshold Estimation
f) Performing Open Set Recognition
K+1个label(K个类别+1个unknown)
实验效果
报告ROC曲线下的面积(AUC)。该区域利用离群点得分计算,并计算不同阈值下的真阳性率(TPR)和假阳性率(FPR)。用t检验来衡量AUC值差异的统计学意义.
采用平均F-score来评价开放集识别性能
总结和思考
提出了一种学习基于神经网络的表示法的方法,该方法将同一类的实例更紧密地投射在一起,同时将不同类的实例投影得更远。 这两种属性导致在类之间的较大空间,以占据unknown类的实例从而促进开放集识别。该模型首先从每个节点的邻节点中抽取出固定数量的节点,然后再使用特定的方式来融合这些邻节点的信息(如直接对这些节点的特征向量求平均,或者将其输入到一个RNN中)。