VDSR神经网络

uodgnez

已于 2022-02-15 15:12:58 修改

阅读量7.1k

点赞数 4

分类专栏：图像处理神经网络深度学习文章标签：神经网络深度学习计算机视觉

于 2022-01-28 14:01:11 首次发布

本文链接：https://blog.csdn.net/weixin_48320163/article/details/122729869

版权

深度学习同时被 3 个专栏收录

26 篇文章

订阅专栏

图像处理

18 篇文章

订阅专栏

神经网络

13 篇文章

订阅专栏

VDSR是一种高效的超分辨率重建方法，通过学习输入低分辨率图像与目标高分辨率图像之间的残差来加速训练过程。该网络由20层组成，采用ReLU激活函数和MSE损失函数，能实现比SRCNN高104倍的学习率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 VDSR

VDSR于2016年于Jiwon Kim等人所提出。作者主要使用了一种基于VGG-Net的深度卷积网络，训练时只学习残差，最终得到了极高的学习率（比SRCNN高104倍），并且在图片质量表现上也有很大优势。
正如VDSR论文中所提到的，输入的低分辨率图像和输出的高分辨率图像在很大程度上是相似的，也就是说低分辨率图像携带的低频信息与高分辨率图像的低频信息是相近的，训练时带上这部分就会多花费时间，实际上只需要学习高分辨率图像和低分辨率图像之间的高频残差即可。VDSR是最直接明显的学习残差的结构，其网络结构如下图所示。
在这里插入图片描述
作者认为，增加网络的深度会显著提高性能。
网络模型共有20层，第一层对输入图像进行操作，最后一层用于图像重建。除了第一层和最后一层外，其他卷积层为同一类型： $3\times3\times64$ 。
网络将插值后的低分辨率图像（到所需大小）作为输入，再将这个图像与网络学到的残差相加得到最终的网络的输出。

激活函数：ReLU
损失函数：MSE

在文章中，作者定义残差图像 $\rm{r}=\rm y -\rm x$ ， $\rm x$ 为插值的低分辨率图像， $\rm y$ 表示高分辨率图像。想要预测这个残差图像，损失函数则变为 $\frac12 ||\text{r}-f(\rm x)||^2$ 。

2 CODE

import torch
import torch.nn as nn

class VDSR(nn.Module):
    def __init__(self):
        super(VDSR, self).__init__()
        self.firstPart = nn.Conv2d(1, 64, kernel_size=3, stride=1, padding=1, bias=False)

        self.midPart = [nn.Conv2d(64, 64, kernel_size=3, stride=1, padding=1, bias=False),nn.ReLU(inplace=True)]
        for _ in range(17):
            self.midPart.extend([nn.Conv2d(64, 64, kernel_size=3, stride=1, padding=1, bias=False), nn.ReLU(inplace=True)])
        self.midPart = nn.Sequential(*self.midPart)

        self.lastPart = nn.Conv2d(64, 1, kernel_size=3, stride=1, padding=1, bias=False)
        self.relu = nn.ReLU(inplace=True)
        
    def forward(self, x):
        residual = x
        x = self.relu(self.firstPart(x))
        x = self.midPart(x)
        x = self.lastPart(x)
        out = torch.add(x, residual)
        return out


a = torch.rand(5, 1, 250, 250)
model = VDSR()
output = model(a)
print(output.shape)
print(model)