【CVPR2022 | TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation介绍及复现】
在本文中,我们提出了一个移动友好的架构,名为Token Pyramid Vision Transformer(TopFormer)。建议的TopFormer将来自不同尺度的token作为输入,产生尺度感知的语义特征,然后将这些特征注入到相应的令牌中,以增加表示。实验结果表明,我们的方法在多个语义分割数据集上显著优于基于CNN和基于ViT的网络,并且在准确性和延迟之间取得了很好的平衡。
原创
2023-11-18 21:26:03 ·
717 阅读 ·
3 评论