自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 语义分割之RTFormer介绍

ViT以来,Transformer作为特征提取器在语义分割领域证明了自己,但是由于Transformer的核心 muti-self-attention 复杂度多高,因此在高实时性要求的场合,一般还是采用基于CNN的方案,百度的RTFormer 则提出了一套基于Transform的高实时性语义分割方案。

2022-11-06 22:11:09 2984 1

原创 CV算法之transform中self-attention理解

这篇文章就不去具体分析某个算法,而是侧重于transform的核心:self-attention,自注意力机制到底是什么,怎么计算的。在CV算法当中怎么去更好地理解它。

2022-01-03 23:29:43 3280

原创 图像分割之Swin-Unet分享

基于CNN的图像/语义分割算法主要有Unet FCN PSPnet DAnet DeepLabV3+,HRnet+OCR等,去年年底基于Transform的各类CV算法(如ViT,Swin等)在分割/分类任务上都表现了相比CNN更为优秀的分割精度。这里就简单介绍一下基于Swin模块的Unet分割算法:来自慕尼黑工业大学的Swin-Unet

2021-12-12 23:28:24 16650 14

原创 目标检测之YOLOX分享

旷世发布的yolox在yolov5基础之上进行大量改进,在检测头层面进行分类回归解耦,同时通过改进正负样本选择策略,anchor free等方式相比yolov5具有一定提升:YOLOX-L和YOLOv4-CSP、YOLOv5-L有差不多参数量的情况下,YOLOX-L在COCO上取得50.0%AP(比YOLOv5-L高出1.8%的AP)

2021-11-29 00:44:09 1654

原创 语义分割之SegFormer分享

今年可以说是分割算法爆发的一年,首先Vit通过引入transform将ADE20K mIOU精度第一次刷到50%,超过了之前HRnet+OCR效果,然后再是Swin屠榜各大视觉任务,在分类,语义分割和实例分割都做到了SOTA,斩获ICCV2021的bset paper,然后Segformer有凭借对transform再次深层次优化,在拿到更高精度的基础之上还大大提升了模型的实时性。

2021-10-15 18:44:54 17506 29

原创 语义分割算法分享之Swin-Transformer

在ViT等基础之上继续演变的Swin刚刚拿到了ICCV2021的 best paper,经过实际使用体验来看,确实效果较好,从语义分割角度来看,Swin不仅在ADE20K取得了sota的效果,在各个其他场景数据集下都有极为优秀的表现,精度相比PSPnet和deeplabv3+等基于CNN的分割算法都有较大提升。

2021-10-14 11:04:52 10320 4

原创 Onestage的Anchor生成原理-以Retinanet为例

目前基于onestage的算法一再刷新COCO数据,从19年的Cornernet到Centernet,从今年的ATSS到PAA,再到GFL,VFL,这些算法基本上都是源自基础的onestage之上改进而来,弄清楚整个onestage流程,对于这些算法的理解具有极大的好处。本文从基于onestage的代表RetinaNet出发,详细的将前向推理以及训练阶段整个流程为各位较为完整的梳理一遍。

2020-12-27 21:12:30 899 1

原创 目标检测之Generalized Focal Loss介绍

目标检测从年初的ATSS到PAA,通过优化对正负样本选取的手段将onestage在COCO的AP刷到了46,本文主角GFL在ATSS的基础之上,对focal loss进行改进,提出了GFL,通过大量对比试验证明了有效性,基本上可以说是无损涨点了。

2020-12-26 01:07:50 4779 3

原创 OHEM介绍

在two-stage检测算法中,RPN阶段会生成大量的检测框,由于很多时候一张图片可能只会有少量几个目标,也就是说绝大部分框是没有目标的,为了减少计算就需要进行sample,一般来说fasterrcnn的sample机制是算框和label的IOU,大于0.7认为是正样本,小于0.3是负样本。但是单纯的random_sample选出来的框不一定是最容易错的框。那么ohem就是较好的一种正负样本策略

2020-12-20 22:02:07 2429 1

原创 Pytoch+TensorRT6采坑总结

之前都是用TensorRT6做部署,现在有时间准备试一下最新的TensorRT7但是TensorRT6的问题是不支持pytorch1.3以上的版本。具体的说就是pytorch训练生成的模型文件,通过onnx转换成onnx格式的模型,再通过TensorRT转成engine格式模型,进行前向推倒,每一步都没问题,最后就是报错:ERROR: Network must have at least one output网上的解决方案基本上都是让在生成engine前加这两句来指定最后一层的输出:last_lay

2020-12-16 23:53:59 845 3

原创 目标检测之ATSS介绍

这篇论文可以说是2020上半年目标检测最具有价值的文章之一了。直接揭露除了anchor 和anchor free类算法本质的区别,同时提出了一种筛选正负样本的方法,基于ATSS加成的RetinaNet直接吊打众多twostage网络

2020-12-01 00:36:27 16512 10

原创 图像分割之U2-Net介绍

U2net是基于unet提出的一种新的网络结构,同样基于encode-decode,作者参考FPN,Unet,在此基础之上提出了一种新模块RSU(ReSidual U-blocks) 经过测试,对于分割物体前背景取得了惊人的效果。同样具有较好的实时性,经过测试在P100上前向时间仅为18ms(56fps)。

2020-11-22 01:49:31 32226 5

原创 目标检测组件之FPN介绍

FPN网络可以说是一个非常经典的组件,twostage网络中一般都会加上去,能够有效的提升对小目标的检测能力,cascade_rcnn/faster_rcnn+big backbone+fpn+dcn的经典组合经久不衰。

2020-11-17 00:58:12 2899 2

原创 Backbone之Senet介绍

Senet是Momenta在2017的cvpr上发布的,并且获得了ImageNet当年也应该是最后一届冠军,senet相比较于resnet通过se分支增加了类似nlp的Attention 机制,来更加关注channel之间的关系

2020-11-08 23:50:24 422

原创 Backbone之ResNeXt介绍

resnext在各大检测/分割任务中可以说是常客了,Faster Rcnn/cascade rcnn+xt101+FPN+DCN这一整套可以说是检测分割任务做baseline最好的选择之一了,基本上都不会让人失望,作为特征提取网络的核心,backbone的性能就直接决定了检测或者分割网络的精度。

2020-11-03 00:09:25 1204

原创 Backbone之Res2net介绍

目前现在计算机视觉主流的任务如分类/检测/分割,都需要backbone骨干网络提取特征,在目前的诸多backbone中,都希望通过增加多尺度表征能力来进行性能提升,目前现在大部分网络是在一层一层上使用的多尺度。而本文的主角Res2net通过提出一种全新的CNN模块,通过在残差块里面构建多通道的残差连接,来代替单个3*3的卷积核,res2Net在更细粒度级别表示多尺度特征,同时还具有相当好的泛化性能,res2net能够嵌入到目前主流的CNN网络中去,例如resnet,resnext,DLA,以及senet,作

2020-10-31 19:46:07 4395 3

原创 语义分割之Fastscnn原理以及代码讲解

Fastscnn也是目前比较优秀的语义分割模型,在具有较好的实时性(论文介绍能做到123.5帧,但是我自己亲测P100上实测大概是24ms左右(256*256的图像),大概40帧上下)的同时还具有很好地分割精度(在cityscapes上得到68.0%的miou,在实际应用层面精度还是可以的。)

2020-09-13 19:06:17 8191 14

原创 语义分割之PSP-Net原理以及代码讲解

CVPR 2017 (IEEE Conference on Computer Vision and Pattern Recognition)论文地址:Pyramid Scene Parsing Networkgithub地址:PSP-Net可以说是语义分割当中比较经典的一个了,不仅有着较好的多类分割精度,同时实时性也ok(backbone在resnet18时在p100上可以跑到40ms左右,不算慢,当然现在很多优秀的语义分割算法都能做的比它好),整个网络结构相对也很简单,所以目前语义分割方.

2020-09-06 22:55:55 11579 9

原创 图像的校正与增强之仿射变换

仿射变换:仿射变换可以说是图像处理当中应用的比较多的一种变换了,在一些场合拍摄的图像有些时候会因为各种原因可能不能很好地对齐,所以这个时候可以用仿射变换完成图像的校正。仿射变换在图形中的变换包括:平移、缩放、旋转、斜切及它们的组合形式,简单的来说,仿射变换实质就是一幅图像进行一个线性变换加上一次平移操作。如果把图像细分到每个点,那么对应的每个点的仿射变换实质其实就是对这个点乘以仿射变换矩阵:可以化简为:有矩阵论或者线性代数基础的同学应该就能够发现,这里的仿射变换矩阵实质上就是一个2*3的2行3

2020-05-11 22:47:27 3340

原创 图像分割之Unet原理简介与代码简析

Unet是比较早的基于深度学习的分割算法了,优点是速度真的快(P100上基于VGG的backbone能跑到50帧)

2020-05-05 21:47:28 25324

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除