论文名称:《Bottleneck Transformers for Visual Recognition》
论文地址:https://arxiv.org/pdf/2101.11605.pdf
文章目录
1 原理
我们提出了BoTNet
,这是一个在多个计算机视觉任务中包括图像分类、目标检测和实例分割的概念简单而又强大的主干网络架构,它融合了自注意力机制。通过仅仅在ResNet
的最后三个瓶颈块中用全局自注意力替换空间卷积,并且没有进行其他改动,我们的方法在实例分割和目标检测上显著改善了基准模型的性能,同时还减少了参数数量,并且延迟增加很小。通过BoTNet
的设计,我们还指出了带有自注意力的ResNet
瓶颈块可以看作是Transformer
块。没有任何花哨的技巧,BoTNet
在COCO
实例分割基准测试中