如何为不固定输入图片尺寸的CNN-based image retrieval network生成固定长度的feature embedding

最新推荐文章于 2022-05-08 19:49:49 发布

CS_myc

最新推荐文章于 2022-05-08 19:49:49 发布

阅读量392

点赞数

分类专栏： CBIR 文章标签：数据库 pytorch 深度学习

本文链接：https://blog.csdn.net/weixin_43932512/article/details/111994953

版权

CBIR 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

今天在看GeM pooling (generalized mean pooling)的代码的时候发现他们用的测试集（paris6k和oxford5k）的尺寸是不固定的。作为image retrieval net小白的我就很好奇他们是如何保证在用固定kernel size的CNN的情况下还能最终生成一样长度的feature embedding vector的。我之前知道spatial pyramid pooling可以做这件事情，也知道貌似不固定图片尺寸的训练会让模型不容易over-fitting且更容易收敛。但是当时没太看懂，这里先不讨论SPP先说GeM的方法。

他们的方法其实很简单，概括来说就是将torch自带的在ImageNet上预训练过的CNN网络部分的后面拼上这个pooling layer（还有其他的一些关于whiten的优化方法这里先不讲，有兴趣的可以自己去看）。这个pooling layer的kernel size为当前图片过了CNN部分输出的feature map的宽和高。也就是说把一个（变长，变宽，固定深度）的feature map转换为（1，1,固定深度)的tensor，以此来将不同size的image压缩为固定长度的embedding vector。

def gem(x, p=3, eps=1e-6):
    return F.avg_pool2d(x.clamp(min=eps).pow(p), (x.size(-2), x.size(-1))).pow(1./p)

补充：其实在torch中用torch.nn.functional.adaptive_avg_pool2d(input, output_size)就可以实现。

不管之前的特征图尺寸为多少，只要设置为(N,N)，最终特征图的size都为(N,N) 。

CS_myc

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
如何为不固定输入图片尺寸的CNN-based image retrieval network生成固定长度的feature embedding

今天在看GeM pooling (generalized mean pooling)的代码的时候发现他们用的测试集（paris6k和oxford5k）的尺寸是不固定的。作为image retrieval net小白的我就很好奇他们是如何保证在用固定kernel size的CNN的情况下还能最终生成一样长度的feature embedding vector的。我之前知道spatial pyramid pooling可以做这件事情，也知道貌似不固定图片尺寸的训练会让模型不容易over-fitting且更容易收敛
复制链接

扫一扫

专栏目录