细粒度分类具有挑战性,因为很难找到有区别的特征。找到那些能够完全描述物体的细微特征并不容易。为了解决这一问题,我们提出了一种新的自监督机制来有效地对信息区域进行定位,而不需要使用框/部件标注。我们的模型NTS-Net称为导航-教学-审查网络,由导航器代理、教学器代理和审查器代理组成。考虑到区域的信息量与其为groundtruth类的概率之间的内在一致性,设计了一种新的训练范式,使导航器能够在教学器的指导下检测出信息量最大的区域。然后,审查器从导航器中仔细识别建议的区域并做出预测。我们的模型可以看作是一个 multi-agent 合作的模型,其中各agent相互受益,共同进步。NTS-Net可以端到端训练,同时提供精确的细粒度分类预测以及推理过程中的高信息量区域。
直观地看,有较高的概率被认为是groundtruth类的区域应该包含更多的目标特征语义,从而提高整个图像的分类性能。因此,我们设计了一个新的损失函数(排序损失函数)来优化每个选择区域的信息量,使其具有与其为groundtruth类的概率相同的排序顺序,并将全图像的groundtruth作为区域的groundtruth。具体来说,导航器模型聚焦于图像中信息最丰富的区域,导航器预测该区域的信息有多丰富,这些预测用于提取出信息最丰富的区域。教学器对导航器提出的区域进行评估并提供反馈:对于每个建议区域,教学器评估其属于ground-truth类的概率;该置信度评估使用我们的新的顺序一致的损失函数引导导航器提出包含更多信息的区域。审查器仔细检查导航器建议的区域,并进行细粒度分类:将每个建议的区域扩大到相同的大小,审查器从中提取特征;对区域特征和图像整体特征进行联合处理,进行细粒度分类。