pytorch
文章平均质量分 87
RichardCV
某厂图像算法工程师(调参&数据标注工程师),请多指教~
展开
-
[原理理解] Swin Transformer相对位置编码理解
现在,我们想要获取非负数的位置索引,怎么做呢?首先我们需要先知道相对位置最小,最大值是多少?最大值就是当前像素是第一个像素的时候最后一个像素的位置;最小值就是当前像素是最后一个像素时候第一个像素的位置;因此,对负数进行偏移需要X、Y 各自加上。现在,我们已经获取到非负的xy相对位置索引,需要做最后一个步骤,把两个索引映射成单一的维度的索引。能想到的最简单方式就是x+y,但是这个方式是不行的。如下图所示,如果直接两者相加,那么针对同一个像素,其他像素跟他的相对位置索引就会重复。原创 2024-08-27 20:28:38 · 1159 阅读 · 0 评论 -
[论文精读] StyleGAN2 论文&代码理解 (下)
这是StyleGAN2理解的下篇,主要讲述的是代码的理解。代码主要需要分为3个大方面来理解(1)、Generator网络结构(2)、主网络训练。(3)、图像投影到隐码空间 (latent space)的训练原创 2024-08-04 15:54:21 · 974 阅读 · 0 评论 -
[原理] 可变性卷积(deformable convolution)原理及代码解释
代码见:https://github.com/4uiiurz1/pytorch-deform-conv-v2/blob/master/deform_conv_v2.py论文:https://arxiv.org/abs/1703.06211。原创 2024-07-28 18:37:23 · 722 阅读 · 0 评论 -
【pytorch】从yolo的make_grid理解torch.meshgrid、torch.stack
w=3,h=6对应的值就是[6,3]也就是第6行,第3列。torch.meshgrid 是 PyTorch 中的一个函数,这个函数通常用于创建坐标点的网格,以便进行一些网格上的操作,比如插值或者计算函数值。torch.stack((xv, yv), 2)就是将上述行列坐标信息堆叠在第2个维度,这样子每个位置就有各自的行列坐标值。可以看到yv实际上是一个纵坐标的网格,每个值都代表着自己所在的行,分别对应0-3行。可以看到w=1,h=2对应的值就是[2,1]也就是第2行,第1列。创建网格代码如下,那么什么是。原创 2023-11-28 20:33:27 · 1040 阅读 · 2 评论 -
深度学习归一化原理及代码实现(BatchNorm2d,LayerNorm,InstanceNorm,GroupNorm)
本文记录总结pytorch中四种归一化方式的原理以及实现方式。方便后续理解和使用。原创 2023-09-18 19:27:25 · 1778 阅读 · 2 评论 -
【pytorch,onnx,bug解决】pytorch的op:pixel unshuffle转到onnx的op:SpaceToDepth
pytorch的`F.pixel_unshuffle` 转onnx 的 `SpaceToDepth`,原创 2023-06-28 17:38:33 · 1633 阅读 · 3 评论 -
【GAN】GANLoss之‘vanilla‘, ‘lsgan‘, ‘wgan‘, ‘hinge‘的具体计算方式及实现
由于在实际使用中遇到了多种形式的GANLoss,就整理了以下常用的四种GANLoss在应用中的区别,包括'vanilla', 'lsgan', 'wgan', 'hinge'。原创 2023-06-26 10:53:43 · 2494 阅读 · 0 评论