《Query2Label: A Simple Transformer Way to Multi-Label Classification》

Love向日葵的兮兮子

已于 2022-03-07 11:12:06 修改

阅读量1.7k

点赞数 1

分类专栏： Transformer 文章标签：深度学习 transformer 计算机视觉

于 2022-03-04 17:13:08 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43994864/article/details/123279563

版权

Query2Label是一种使用Transformer解码器进行多标签分类的新方法，通过标签嵌入查询图像特征，解决了标签不平衡问题和特征提取挑战，达到新的SOTA结果。在MS-COCO、PASCAL VOC等多个数据集上表现出优越性能。

摘要由CSDN通过智能技术生成

在这里插入图片描述
论文链接：https://arxiv.53yu.com/pdf/2107.10834.pdf?ref=https://githubhelp.com
代码链接：https://github.com/SlongLiu/query2labels

1. 动机

多标签分类需要特别关注两个问题：1)如何处理标签不平衡问题，2)如何从感兴趣区域提取特征。为了解决第一个问题，很多研究者设计了各种损失函数；而相对于第一个问题相比，第二个问题的解决方案相对不成熟，需要特殊设计的网络架构或额外依赖于标签相关性。

2. 方法

在这里插入图片描述

在本文中，作者提出了一个简单而有效的解决方案，使用Transformer解码器查询类标签的存在性。作者表明，在没有附加功能的情况下，所提出的解决方案会产生新的SOTA结果，并为其简单的实现和卓越的性能建立强大的基线。该解决方案命名为Query2Label，如上图所示1，本文使用可学习的标签嵌入作为查询，通过Transformer编码器中的交叉注意模块探测和汇集类相关的特性。合并后的特征具有自适应和更强的鉴别性，从而提高了多标签分类的性能。

Query2Label框架

Query2Label是一个两阶段框架，主要由第一阶段的特征提取模块，第二阶段的Transformer解码块（用于query更新）和特征映射组成。
特征提取模块
给定一幅图像 $\in R^{H_0 \times W_0 \times 3}$ 作为输入，利用主干提取其空间特征 $\mathcal{F}_0 \in R^{}H \times W \times d_0$ 。然后添加一个线性映射层，将特征从维数 $d_0$ 投影到 $d$ ，与第二阶段所需的query维数匹配，并将映射的特征reshape为

最低0.47元/天解锁文章

Love向日葵的兮兮子

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
7
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。