论文笔记
文章平均质量分 92
ChiruZy
这个作者很懒,什么都没留下…
展开
-
Swin Transformer 论文与代码阅读
Swin Transformer 论文与代码阅读提示:论文阅读包含个人理解,如有错误请指正。在 ViT 将 Transformer 运用到视觉领域之后,基于 Transformer 的视觉模型遍地开花,Swin Transformer 就是其中的代表,Swin Transformer 主要解决了 Transformer 在视觉领域应用的两个问题:尺度问题:同一物体的尺寸不一定相同维度问题:以像素点作为单位,导致序列长度非常长Swin Transformer 提出了一种 Shifted wind原创 2022-05-03 18:34:19 · 712 阅读 · 0 评论 -
ViT 论文与代码阅读笔记
ViT 论文与代码阅读笔记拒绝机翻论文,没有自己的理解翻译了也没有用吧。简介ViT 是谷歌团队发表与于 ICLR2021 的一篇文章,其内容主要就是将纯 Transformer 应用于视觉领域。以下是 ViT 的网络结构图:可以看到该网络中不包含 CNN,作者证明了传统的视觉任务中并不一定需要依赖于 CNN 结构,纯 Transformer 也能够很好地完成图像的分类任务。作者通过实验,在多个数据集上与 ResNet152 进行比较,均得到了更优的结果:原版代码为 Jax 编写,地址: ht原创 2022-04-08 18:48:57 · 949 阅读 · 0 评论 -
SIFT 特征点提取
SIFT 特征点提取SIFT 是一种从图像中提取独特不变特征的方法,其特点为基于图像的一些局部特征,而与图像整体的大小和旋转无关。并且该方法对于光照、噪声、仿射变换具有一定鲁棒性,同时能生成大量的特征点。SIFT 的具体步骤尺度空间极值检测: 使用差分高斯函数识别潜在的兴趣点特征点定位:剔除对比度不高和处于边界位置的特征点分配方向:计算特征点的方向用于下一步构建描述特征点描述:尺度空间极值检测尺度空间极值检测的作用就是发掘同一图像在不同尺度下都存在的特征点。通过对原始图像进行不断地降采样原创 2021-08-02 12:26:50 · 3453 阅读 · 0 评论 -
YOLOv5代码阅读笔记 - 损失函数
YOLOv5代码阅读笔记 - 损失函数yolov5 中包含了以下三种损失函数:classification loss: 分类损失localization loss: 定位损失confidence loss: 置信度损失总体的损失即为以上三者的加权相加,通过改变权值可以调整对三者损失的关注度。分类预测通常对于分类任务,输出的标签是互斥的。如将某一个生物可能为人、狗或是猫,且该生物只可能是三种类别中的一种。此时将会用到 softmax 函数将三者的预测值转换为总和为 1 的概率值,并分类为概率原创 2021-08-02 12:23:56 · 33151 阅读 · 10 评论 -
YOLOv5代码阅读笔记 - 模型解读
YOLOv5代码阅读笔记 - 模型解读模型结构概述yolov5 的几个不同大小的模型结构存储在对应的 .yaml 文件中,这些模型结构的大小由文件名称最后的英文表示,从小到大分别为 s, m, l, x。这几个模型都分别包含了以下几个重要参数:nc: 目标类别的个数depth_multiple:控制模型中 C3 模块的串联个数的系数width_multiple:控制模型中通道大小的系数anchors:锚框的尺寸backbone:模型 backbone 部分的结构head:模型 head原创 2021-03-05 21:58:37 · 4647 阅读 · 10 评论 -
Visual Attention 相关论文阅读笔记
Visual Attention 相关论文阅读笔记SENetgithub :https://github.com/hujie-frank/SENet简介使用 Squeeze-and-Excitation 模块即 SE 模块,以建模通道之间的依赖关系,自适应校准通道特征响应。说白了就是对每个通道的数据进行提取于变换后,再返回对通道进行加权,同时变换的参数是可学习的。具体做法SE block 是一个建立于变换之上的计算单元,当输入经过一个卷积变换 FtrF_{tr}Ftr 之后,由于输出的单个通道原创 2021-08-03 17:30:37 · 213 阅读 · 0 评论