论文代码:目前没有提供
ICCV2001
作者考虑到目前在ATM、超市收银台等地方存在较高视角的摄像头,拍摄的图像特征中头、肩是主要的信息,下身被自身遮挡。提出了一个BirdView的数据集 https://git.io/BVPerson,同时提供一个基于cross-attention 的解决模型。
三个挑战:
(1)如何将bird-view和horizental-view的图像建立联系;——cross attention
(2)头肩在bird-view 图像中占很大部分,而horizontal-view图像中只占很小部分。如何保留很小但重要的局部信息是一个挑战;—multi-scale attention
(3)如何利用bird-view图像中的头肩信息匹配整体图像。—feature Reconstruction
为此,分别提出三个模块,见下图。具体看论文。