模型详解与复现
文章平均质量分 95
好喜欢吃红柚子
行到水穷处,坐看云起时
展开
-
【模型详解】从注意力机制到VIT到DETR,万字长文详解
手把手教你transformer在vit和detr中的应用原创 2024-06-04 15:56:05 · 960 阅读 · 2 评论 -
【目标检测经典算法】R-CNN、Fast R-CNN和Faster R-CNN详解系列三:Faster R-CNN图文详解
在图像上预设好的不同大小,不同长宽比的参照框。论文中设定每个区域可以生成k个anchor box。可以看到。原创 2024-03-18 14:51:32 · 1272 阅读 · 0 评论 -
【目标检测经典算法】R-CNN、Fast R-CNN和Faster R-CNN详解系列二:Fast R-CNN图文详解
论文中从2000个候选框中选择64个候选框进行训练使用,其中如果与真实目标边界框的IOU值>0.5,则被认定为正样本,负样本则是与真实候选框的IOU值最大的且在(0.1 , 0.5]范围内的。原创 2024-03-13 14:40:40 · 1646 阅读 · 1 评论 -
【目标检测经典算法】R-CNN、Fast R-CNN和Faster R-CNN详解系列一:R-CNN图文详解
是一种常用于目标检测的候选区域生成方法。在传统的目标检测算法中,需要对图像中的每个可能包含目标的区域进行检测,但这样做会导致计算量巨大,尤其是在图像具有大量区域时。Selective Search的目标是通过一种高效的方式生成一组可能包含目标的区域,以减少后续目标检测算法的计算复杂度。Selective Search算法的核心思想是通过结合不同的图像特征(如颜色、纹理、大小等)来生成候选区域。具体来说,原创 2024-03-13 11:59:00 · 1120 阅读 · 0 评论 -
【开放集检测】OpenGAN: Open-Set Recognition via Open Data Generation 论文阅读
利用一些例外(异常)数据作为开放集,训练一个闭集VS开放集的二分类检测器使用GAN网络无监督学习闭集数据分布,使用该判别器作为开放集的似然函数作为开放集使用的异常数据无法穷尽现实世界的所有可能的未知值GAN网络训练过程不稳定解决: 提出OpenGAN使用对抗合成的假数据填充可用的真实开放集训练数据在闭集k-ways的特征基础上建立判别器使用GAN网络生成fake data,训练一个判别 close data 和 fake data 的二分类判别器;在训练时使用一些真实世界中的。原创 2023-12-22 10:39:53 · 2004 阅读 · 0 评论 -
【异常检测】论文阅读:CSI: Novelty Detection via Contrastive Learning on Distributionally Shifted Instances
主题:基于对比学习模型SimCLR在开放集检测上进行应用B:=xii1BB−i。原创 2023-12-13 11:50:09 · 319 阅读 · 0 评论 -
SimCLR损失函数详解
可以增加负样本的数量,在计算概率的时候,计算公式的分母中就包含了负样本的计算。有一批batchsize为N的样本,论文中N=8192,下图以N=2为例;其余任意两两图片之间的组合组成的图片对即为负样本。更大的训练批量和训练轮数,可以提供更多的负样本,促进模型收敛。最后,计算每个Batch里面的所有Pair(共有N个图片对,),所以1个Batch 一共有 N*2 个增强样本图片。对于一个batch中,由同一张图片数据增强过的两张图片(对一个batch中的每个样本都进行2次随机的。张图片的相似性求对数的和。原创 2023-12-13 11:07:57 · 866 阅读 · 0 评论 -
使用自监督对比学习模型SimCLR完成图像分类任务:pytorch代码详解
网络特征提取采用resnet50,将输入层进行更改,并去掉池化层及全连接层。之后将特征图平坦化,并依次进行全连接、批次标准化、relu激活、全连接,得到输出特征。使用无监督学习网络的特征提取层及参数,之后由一个全连接层得到分类输出。最小化正样本之间的相似性与负样本之间的相似性之间的差异,从而使得正样本更接近,负样本更远离。在计算机视觉任务中,常用的评估指标之一是top-k准确率,其中k表示预测结果的排名。原创 2023-12-12 13:55:57 · 2645 阅读 · 4 评论 -
【开放集检测OSR】《OPEN-SET RECOGNITION: A GOOD CLOSED-SET CLASSIFIER IS ALL YOU NEED?》详解
得到结论:模型做出“属于非以上类”决策的能力高度取决于在闭集分类中的准确性使用方法:通过提高闭集精读来提高OSR性能提出框架:SSB(Semantic Shift Benchmark)当我们说模型只是在对“未见过”的数据中进行低级特征的分布式转移时,意味着模型可能没有真正理解新类别的高级语义特征,而是依赖于在训练中学到的一些通用低级特征来进行分类。在这种情况下,模型可能会将新类别的图像与训练数据中的某些低级特征进行关联,而不是基于真正的高级语义理解。原创 2023-12-10 09:38:18 · 1075 阅读 · 0 评论 -
Vision Transformer
把class token从最终结果[197,768]中切片拿出来,对其进行linear全连接(简单理解),如果需要类别概率的话,可以再接一个softmax。在代码实现中,直接通过一个卷积层来实现以ViT一 B/16为例,使用卷积核大小为16x16,stride为16, 卷积核个数为768;对于标准的Transformer模块,要求输入的是token (向量)序列,即二维矩阵[num_token,token_dim];以及Position Embedding。借用我导的图片来总结一下。原创 2023-12-04 10:20:20 · 148 阅读 · 0 评论