卷积神经网络中的im2col函数的实现

QQQL759

于 2023-11-02 17:49:41 发布

阅读量170

点赞数

文章标签： cnn 人工智能深度学习

本文链接：https://blog.csdn.net/weixin_56366347/article/details/134187782

版权

im2col函数的的目的就是将输入图像的不同区域（通常是滑动窗口的区域）转化成一个矩阵的形式。这个矩阵的每一列对应于输入图像的一个区域，而每一行则对应于不同通道的数据。这个操作有助于将图像处理任务转化为高效的矩阵操作，因为矩阵操作在许多计算库中都有高度优化的实现。

m2col函数的实现代码

def im2col(input_data, filter_h, filter_w, stride=1, pad=0):
    """

    Parameters
    ----------
    input_data : 由(数据量, 通道, 高, 长)的4维数组构成的输入数据
    filter_h : 滤波器的高
    filter_w : 滤波器的长
    stride : 步幅
    pad : 填充

    Returns
    -------
    col : 2维数组
    """
    N, C, H, W = input_data.shape
    out_h = (H + 2*pad - filter_h)//stride + 1
    out_w = (W + 2*pad - filter_w)//stride + 1

    img = np.pad(input_data, [(0,0), (0,0), (pad, pad), (pad, pad)], 'constant')
    col = np.zeros((N, C, filter_h, filter_w, out_h, out_w))

    for y in range(filter_h):
        y_max = y + stride*out_h
        for x in range(filter_w):
            x_max = x + stride*out_w
            col[:, :, y, x, :, :] = img[:, :, y:y_max:stride, x:x_max:stride]

    col = col.transpose(0, 4, 5, 1, 2, 3).reshape(N*out_h*out_w, -1)
    return col

我一开始对两个循环嵌套的功能和逻辑不太理解，询问ChatGpt也得不到满意的回答，于是自己在草稿纸上手动模拟了一下

最后理解了这段代码的逻辑

首先两层循环的循环变量确定了卷积核中的一个参数的位置

y_max = y + stride*out_h

x_max = x + stride*out_w

上面这两行代码则是确定了这个参数在窗口滑动时确定的参数在两个维度滑动的边界

确定了两个边界后这个参数的滑动区域也就确定了就是 y:y_,ax和x:x_max

最后就是通过切片操作，按照stride步长来获取输入矩阵中会和这个参数相乘的元素，并把™放在同一列，以方便计算机进行矩阵运算

总的来说

im2col的就是得到一个方便实现卷积运算的矩阵

QQQL759

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
卷积神经网络中的im2col函数的实现

im2col函数的的目的就是将输入图像的不同区域（通常是滑动窗口的区域）转化成一个矩阵的形式。这个矩阵的每一列对应于输入图像的一个区域，而每一行则对应于不同通道的数据。这个操作有助于将图像处理任务转化为高效的矩阵操作，因为矩阵操作在许多计算库中都有高度优化的实现。我一开始对两个循环嵌套的功能和逻辑不太理解，询问ChatGpt也得不到满意的回答，于是自己在草稿纸上手动模拟了一下。上面这两行代码则是确定了这个参数在窗口滑动时确定的参数在两个维度滑动的边界。首先两层循环的循环变量确定了卷积核中的一个参数的位置。
复制链接

扫一扫