CondInst
https://arxiv.org/abs/2003.05664
作者思考实例分割和语义分割的区别,一个map只能拿一个实例,语义分割是出一个map拿所有实例,实例分割的核心,怎么让网络focus到某一个instance,然后只把这个instance的mask拿出来。
思路
分别拿一个mask head 去得到一个实例的mask。
mask head是在检测器后,检测到多少个instance就跟多少个head,是动态的
结构
使用FPN+FCOS,每个点生成一个框,框后面加个controller,生成一组滤波器,滤波器被用来填充mask head,maskhead作用到一个featuremap上,featuremap不需要crop,直接原图。
不需要ROI Align等操作
疑问:这组filters是怎么填充的maskhead,起到了什么作用
优点
使用动态的maskhead 去attend到instance;
可以处理不规则的形状,不依赖于box,有时候crop出的,里面背景可能被分割为前景;
可以输出高分辨率;
mask head每次只用一次,每个instance用一次,是动态生成的,所以轻量级,而maskrcnn里参数是固定的,需要囊括所有数据集的可能;
在maskhead计算量只有他的一半