Visual Recognition by Request (基于请求的视觉识别任务)
论文链接:
https://arxiv.org/pdf/2207.14227.pdf
1. contribution/introduction
整篇文章最大的贡献在于给计算机视觉识别领域提出了一个全新的任务(作者生成该任务从未有人做过,摘自原文:Thanks to the ability of learning from incomplete annotations, ViRReq can report part-aware segmentation accuracy on ADE20K, which, to the best of our knowledge, is the first ever work to achieve the goal. )。
这个全新的任务其实可以叫做无限细粒度的视觉识别(文章标题其实是作者针对这个任务提出了一个启发式的解决方法的名称)。
1.1 无限细粒度
那么什么叫做无限细粒度?作者是从人体视觉的角度进行解说的,作者认为当前的计算机视觉识别任务是单一细粒度的。比如说coco数据集上的目标检测,label给出的是目标框,这种识别/标注是object-level的,再比如实例分割(instance segmentation)是pixel-level的(这个可能解读的不够准确)。或者更通俗一点的解读,比如现在在coco数据集上的model基本可以以很高的准确率识别出图像中的人,车,自行车