compressai中的上下文预测模块

最新推荐文章于 2024-08-05 16:19:42 发布

旺仔菜菜

最新推荐文章于 2024-08-05 16:19:42 发布

阅读量232

点赞数

文章标签：人工智能 python

本文链接：https://blog.csdn.net/won_t/article/details/131097529

版权

文章讨论了自回归模型(Autoregressivemodel)用于预测序列数据的原理，以及compressai库中采用的Masked2Dconvolution，这是PixelCNN模块的一部分。这种特殊的2D卷积操作考虑了像素间的依赖关系，通过屏蔽未来的未解码像素来确保预测的顺序性。提供的代码展示了如何实现这一功能，特别是在卷积权重上应用掩码以阻止对未解码像素的访问。

摘要由CSDN通过智能技术生成

理论

1、自回归模型Autoregressive model

用自身产生的参数去预测下一个值，即使用 $x_1,x_2,...,x_t$ 去预测 $x_{t+1}$ ,用 $x_1,x_2,...,x_t,x_{t+1}$ 去预测 $x_{t+2}$

2、Masked 2D convolution

compressai使用的是PixelCNN模块中的Masked 2D convolution，我理解的就是正常的2D卷积操作，由于当前像素是根据之前解码的像素得到的，所以要让卷积块中位于当前像素的之后的权重为0；

比如说5*5的卷积核：

在这里插入图片描述
Introduced in "Conditional Image Generation with PixelCNN Decoders" <https://arxiv.org/abs/1606.05328>_.

代码

简单到我都怀疑作者是不是没按照论文写

class MaskedConv2d(nn.Conv2d):
    r"""Masked 2D convolution implementation, mask future "unseen" pixels.
    Useful for building auto-regressive network components.
    """
    
    def __init__(self, *args: Any, mask_type: str = "A", **kwargs: Any):
        super().__init__(*args, **kwargs)

        if mask_type not in ("A", "B"):
            raise ValueError(f'Invalid "mask_type" value "{mask_type}"')

        # self.register_buffer('name',Tensor)定义一组参数，模型训练时不会更新
        self.register_buffer("mask", torch.ones_like(self.weight.data))
        _, _, h, w = self.mask.size()
        self.mask[:, :, h // 2, w // 2 + (mask_type == "B") :] = 0  # 当前像素所在行像素点所在列及其右侧所有列为0
        self.mask[:, :, h // 2 + 1 :] = 0  # 当前像素下面所有行为0

    def forward(self, x: Tensor) -> Tensor:
        # TODO(begaintj): weight assigment is not supported by torchscript
        self.weight.data *= self.mask
        return super().forward(x)

旺仔菜菜

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
compressai中的上下文预测模块

compressai使用的是PixelCNN模块中的Masked 2D convolution，我理解的就是正常的2D卷积操作，由于当前像素是根据之前解码的像素得到的，所以要让卷积块中位于当前像素的之后的权重为0；用自身产生的参数去预测下一个值，即使用。简单到我都怀疑作者是不是没按照论文写。
复制链接

扫一扫