对于假阳性较多的情况,理论上,添加一些没有目标的“纯阴性”样本进行训练可缓解该问题。但通过查阅issue并未发现相关的添加方法。为此我自己尝试添加无标注样本进行训练,训练过程可正常执行,但该添加无标注样本方法的有效性待进一步验证。如果有问题后续会订正。
一、无标注样本COCO格式数据
对于没有标注信息的图像,在生成COCO格式数据时,设置bbox=[ ],area=0, category_id=0。如果不知道如何生成COCO格式数据可参考我另一篇博客制作自己的COCO格式数据集,附代码!
二、Dataset代码修改
dataset中,获取image和target之后,image和target会被送入self.prepare中进行处理。其中self.prepare是ConvertCocoPolysToMask类的实例对象,源码位于DINO/datasets/coco.py。需要在__call__方法内添加两行代码:
...
boxes = boxes[keep]
# 添加如下代码
if keep.numel() == 0:
keep = torch.tensor([0], dtype=torch.bool)
...
经过上述coco格式数据生成以及代码处理后,对于没有标注的图像,读取的boxes、labels和area均为torch.tensor([ ])。