PIX2SEQ: A LANGUAGE MODELING FRAMEWORK FOR OBJECT DETECTION
论文地址:
https://arxiv.org/abs/2109.10852
代码地址:
(非官方实现)https://github.com/gaopengcuhk/Stable-Pix2Seq
主要工作:
这篇论文将对象检测转换为基于观察到的像素输入的语言建模任务。对象描述(例如,边界框和类标签)被表示为离散标记的序列,即训练一个神经网络来感知图像并生成所需的序列。
也就是说,通过输入图像来输出语言序列,该语言序列描述物体位置和物体类别。
具体实现:
序列构造:
每个目标可以表述为五个分别的 token,即 [