深度学习的unfold操作

深蓝海拓

已于 2024-12-10 14:46:10 修改

阅读量1.6k

点赞数 11

分类专栏：机器视觉和人工智能学习文章标签：深度学习人工智能 pytorch 计算机视觉

于 2024-12-10 12:16:32 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xulibo5828/article/details/144369975

版权

机器视觉和人工智能学习专栏收录该内容

32 篇文章

订阅专栏

unfold（展开）是深度学习框架中常见的数据操作。与我们熟悉的卷积类似，unfold也是使用一个特定大小的窗口和步长自左至右、自上至下滑动，不同的是，卷积是滑动后与核求乘积（所以取名为卷积），而unfold滑动后不求乘积，是将窗口内的数据展开。

例如：

有一个如下内容的张量：[[[[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12], [13, 14, 15, 16]]]]，其数据阵列为：

使用(2*2)的核，步长为2，在上述的数据阵列内滑动，得到了四个窗口数据：

将每一个滑动窗口的数据展平为一维数据，得到：

即：[[[1, 2, 5, 6], [3, 4, 7, 8], [9, 10, 13, 14], [11, 12, 15, 16]]]

三维数据（如彩色图像）的情况

对于彩色图像这样的三维数据，unfold操作会对每个通道分别进行上述的二维展开操作。通道维度保持不变，只是每个通道的数据都按照窗口大小和步长展开并重新排列。例如，一个 RGB 图像，在对其进行unfold操作时，红色通道、绿色通道和蓝色通道的数据都会被独立地按照定义的窗口和步长展开，然后将这些展开后的通道数据按照原来的通道顺序组合在一起，形成新的张量。

应用场景

unfold 操作的常见应用场景包括：

• 卷积层：将卷积操作转换为矩阵乘法，提高计算效率。

• 池化层：在池化操作中，将输入数据转换为适合进行最大值或平均值计算的形式。

• 自定义层：在自定义的神经网络层中，用于实现特定的局部操作。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

深蓝海拓 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。