ChiruZy-CSDN博客

原创 Swin Transformer 论文与代码阅读

Swin Transformer 论文与代码阅读提示：论文阅读包含个人理解，如有错误请指正。在 ViT 将 Transformer 运用到视觉领域之后，基于 Transformer 的视觉模型遍地开花，Swin Transformer 就是其中的代表，Swin Transformer 主要解决了 Transformer 在视觉领域应用的两个问题:尺度问题：同一物体的尺寸不一定相同维度问题：以像素点作为单位，导致序列长度非常长Swin Transformer 提出了一种 Shifted wind

2022-05-03 18:34:19 712

原创 ViT 论文与代码阅读笔记

ViT 论文与代码阅读笔记拒绝机翻论文，没有自己的理解翻译了也没有用吧。简介ViT 是谷歌团队发表与于 ICLR2021 的一篇文章，其内容主要就是将纯 Transformer 应用于视觉领域。以下是 ViT 的网络结构图：可以看到该网络中不包含 CNN，作者证明了传统的视觉任务中并不一定需要依赖于 CNN 结构，纯 Transformer 也能够很好地完成图像的分类任务。作者通过实验，在多个数据集上与 ResNet152 进行比较，均得到了更优的结果：原版代码为 Jax 编写，地址： ht

2022-04-08 18:48:57 948

原创 Pytorch DataLoader shuffle 参数源码解读

DataLoader 的使用方法：调用 dataloader. __iter__ 获取迭代器调用迭代器的 __next__ 获取下一个 batch首先 dataloader 可以设置是否 shuffle那么只要看 shuffle 参数对这个过程有什么影响即可class DataLoader(Generic[T_co]):def __init__(self, dataset: Dataset[T_co], batch_size: Optional[int] = 1,

2021-08-05 14:08:03 4241

原创 Visual Attention 相关论文阅读笔记

Visual Attention 相关论文阅读笔记SENetgithub ：https://github.com/hujie-frank/SENet简介使用 Squeeze-and-Excitation 模块即 SE 模块，以建模通道之间的依赖关系，自适应校准通道特征响应。说白了就是对每个通道的数据进行提取于变换后，再返回对通道进行加权，同时变换的参数是可学习的。具体做法SE block 是一个建立于变换之上的计算单元，当输入经过一个卷积变换 FtrF_{tr}Ftr 之后，由于输出的单个通道

2021-08-03 17:30:37 213

原创 SIFT 特征点提取

SIFT 特征点提取SIFT 是一种从图像中提取独特不变特征的方法，其特点为基于图像的一些局部特征，而与图像整体的大小和旋转无关。并且该方法对于光照、噪声、仿射变换具有一定鲁棒性，同时能生成大量的特征点。SIFT 的具体步骤尺度空间极值检测：使用差分高斯函数识别潜在的兴趣点特征点定位：剔除对比度不高和处于边界位置的特征点分配方向：计算特征点的方向用于下一步构建描述特征点描述：尺度空间极值检测尺度空间极值检测的作用就是发掘同一图像在不同尺度下都存在的特征点。通过对原始图像进行不断地降采样

2021-08-02 12:26:50 3445

原创 YOLOv5代码阅读笔记 - 损失函数

YOLOv5代码阅读笔记 - 损失函数yolov5 中包含了以下三种损失函数：classification loss: 分类损失localization loss: 定位损失confidence loss: 置信度损失总体的损失即为以上三者的加权相加，通过改变权值可以调整对三者损失的关注度。分类预测通常对于分类任务，输出的标签是互斥的。如将某一个生物可能为人、狗或是猫，且该生物只可能是三种类别中的一种。此时将会用到 softmax 函数将三者的预测值转换为总和为 1 的概率值，并分类为概率

2021-08-02 12:23:56 32926 10

原创自注意力机制-李宏毅

Self-Attention 李宏毅2021笔记解决的问题Self-Attention 考虑输入的不同部分之间的相关性基础计算方式假设a1,a2,a3,a4a^1, a^2, a^3,a^4a1,a2,a3,a4为输入的四个部分，或是来自上一个隐藏层的输出，要考虑他们之间的关联性，并输出b1,b2,b3,b4b^1,b^2,b^3,b^4b1,b2,b3,b4。单个输出的计算方式如上图所示，其中 query、key、value 均通过输入乘以矩阵 Wq,Wk,WvW^q,W^k,W^vWq,

2021-07-19 13:53:39 776

原创边缘检测门限化分割霍夫变换区域分割

边缘检测门限化分割霍夫变换区域分割0. 通用函数定义在本次作业中，将会多次使用到卷积、梯度合成、阈值分割以及图片批量显示的操作，故将这些操作定义为函数，以便重复使用。- 卷积def conv_process(img, operators, k_size): space = k_size // 2 raw = np.pad(img, [space, space], 'edge') w, h = raw.shape res = [np.zeros(img.shap

2021-05-12 20:07:04 787

原创 YOLOv5代码阅读笔记 - 模型解读

YOLOv5代码阅读笔记 - 模型解读模型结构概述yolov5 的几个不同大小的模型结构存储在对应的 .yaml 文件中，这些模型结构的大小由文件名称最后的英文表示，从小到大分别为 s, m, l, x。这几个模型都分别包含了以下几个重要参数：nc: 目标类别的个数depth_multiple：控制模型中 C3 模块的串联个数的系数width_multiple：控制模型中通道大小的系数anchors：锚框的尺寸backbone：模型 backbone 部分的结构head：模型 head

2021-03-05 21:58:37 4637 10

weixin_51917840的博客