深度学习目标检测中的图像金字塔 pyramid

在深度学习中,有个基本概念:图像金字塔,我们常常在论文中看到这个词pyramid,下面通过一副效果图来看下什么是图像金字塔:

      

即对图像进行一定比例的缩放,有必要的话还得加上 平滑图像的操作(可使用高斯模糊),如果缩放得到的图像比最小的尺寸还大,或者比最大限制的尺寸还小,则继续进行缩放。

图像金字塔的作用在于解决目标检测中的尺度问题,在比较早的时候,是通过改变滑动窗口的形式来检测图像中大小不一的物体,而目前阶段,更多的是采用滑动窗口规格不变,改变图片大小来检测图像中尺度不一致的物体,金字塔的层级越多,计算量更大,花费的时间会更多,但是,在某种程度上有获得更准确的结果。主要根据自己的应用场景选择合适的比例进行生成图像金字塔。

由于图像金字塔的处理速度慢了一些,因而开始有些论文开始从卷积神经网络中的特征金字塔进行处理速度的提升,具体的可以参考相关的论文。

下面给出生成图像金字塔的matlab程序

scale_factor=1.41;
min_h=99;
min_w=149;
main_path='C:\Users\Administrator\Desktop\pyramid\';
pic1=imread('C:\Users\Administrator\Desktop\pyramid\face.jpg');
pic2=pic1;
dim_pic=size(pic2);
dim_h=dim_pic(1,1);
dim_w=dim_pic(1,2);
num_pic=0;%图片计数命名标签
 while(dim_h>min_h && dim_w>min_w)
     pic2=imresize(pic2,1/scale_factor); %缩放
     num_pic=num_pic+1;
     num_pic=num2str(num_pic);
     pic_path=[main_path,'face',num_pic,'.jpg']; 
     imwrite(pic2,pic_path,'jpg');
     dim_pic=size(pic2);
     dim_h=dim_pic(1,1);
     dim_w=dim_pic(1,2);  
     num_pic=str2num(num_pic);
 end

其中scale_factor一般在工程中取根号2,最近看到同学在看一个深度学习的教程,感觉讲得很好啊,初学者建议看看



  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
图像金字塔: import cv2 as cv import numpy as np #降采样:将源图片尺寸缩小一倍,称为源图片尺寸的一半 def pyr_down_demo(image): dst = cv.pyrDown(image) cv.imshow("pyr_down_demo",dst) print(dst.shape) #高斯金字塔 def pyramid_demo(image): temp = image.copy() level = 3 pyramid_image = [] for i in range(3): dst = cv.pyrDown(temp) cv.imshow("pyramid_image"+str(i),dst) pyramid_image.append(dst) temp = dst.copy() return pyramid_image #拉普拉斯金字塔 def lapalian_demo(image): pyramid_images = pyramid_demo(image) level = len(pyramid_images) for i in range(level-1,-1,-1): if(i-1)<0: expand =cv.pyrUp(pyramid_images[i],dstsize= image.shape[:2]) lpls =cv.subtract(image,expand) cv.imshow("lapalian_down_"+str(i),lpls) else: expand = cv.pyrUp(pyramid_images[i],dstsize=pyramid_images[i-1].shape[:2]) lps = cv.subtract(pyramid_images[i-1],expand) cv.imshow("lapalian_down_"+str(i),lps) src =cv.imread("E:/opencv/picture/lena.jpg") pyr_down_demo(src) dst =cv.resize(src,(256,256)) cv.imshow("inital_window",src) cv.imshow("Resize_demo",dst) lapalian_demo(src) pyramid_demo(src) #print(src.shape) cv.waitKey(0) cv.destroyAllWindows() 分析: 图像金字塔图像多尺度表达的一种,最主要用于图像的分割,是一种以多分辨率来解释图像的有效但概念简单的结构,简单来说,图像金字塔就是用来进行图像缩放的。 进行图像缩放可以用图像金字塔,也可以使用resize函数进行缩放,后者效果更好。这里只是对图像金字塔做一些简单了解。 两种类型的金字塔: 1, 高斯金字塔:用于下采样。高斯金字塔是最基本的图像塔。原理:首先将原图像作为最底层图像G0(高斯金字塔的第0层),利用高斯核(5*5)对其进行卷积,然后对卷积后的图像进行下采样(去除偶数行和列)得到上一层图像G1,将此图像作为输入,重复卷积和下采样操作得到更上一层图像,反复迭代多次,形成一个金字塔形的图像数据结构,即高斯金字塔。 2, 拉普拉斯金字塔:用于重建图像,也就是预测残差,对图像进行最大程度的还原。比如一幅小图像重建为一幅大图,原理:用高斯金字塔的每一层图像减去其上一层图像上采样并高斯卷积之后的预测图像,得到一系列的差值图像即为LP分解图像。 两种类型的采用: 1) 上采样:就是图片放大(所谓上就是变大),使用PryUp函数。 步骤:先将图像在每个方向放大为原来的两倍,新增的行和列用0填充,再使用先前同样的内核与放大后的图像卷积,获得新增像素的近似值。 2)下采样:就是图片缩小(所谓下嘛,就是变小),使用PryDown函数。下采样将步骤:先对图像进行高斯内核卷积 ,再将所有偶数行和列去除。 总之,上、下采样都存在一个严重的问题,那就是图像变模糊了,因为缩放的过程发生了信息丢失的问题。要解决这个问题,就得用拉普拉斯金字塔 对于源码分析: 1.高斯金字塔 de

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值