xuzz_498100208-CSDN博客

原创语义分割之RTFormer介绍

ViT以来，Transformer作为特征提取器在语义分割领域证明了自己，但是由于Transformer的核心 muti-self-attention 复杂度多高，因此在高实时性要求的场合，一般还是采用基于CNN的方案，百度的RTFormer 则提出了一套基于Transform的高实时性语义分割方案。

2022-11-06 22:11:09 3346

原创 CV算法之transform中self-attention理解

这篇文章就不去具体分析某个算法，而是侧重于transform的核心：self-attention，自注意力机制到底是什么，怎么计算的。在CV算法当中怎么去更好地理解它。

2022-01-03 23:29:43 3474

原创图像分割之Swin-Unet分享

基于CNN的图像/语义分割算法主要有Unet FCN PSPnet DAnet DeepLabV3+,HRnet+OCR等，去年年底基于Transform的各类CV算法（如ViT，Swin等）在分割/分类任务上都表现了相比CNN更为优秀的分割精度。这里就简单介绍一下基于Swin模块的Unet分割算法：来自慕尼黑工业大学的Swin-Unet

2021-12-12 23:28:24 17654 14

原创目标检测之YOLOX分享

旷世发布的yolox在yolov5基础之上进行大量改进，在检测头层面进行分类回归解耦，同时通过改进正负样本选择策略，anchor free等方式相比yolov5具有一定提升：YOLOX-L和YOLOv4-CSP、YOLOv5-L有差不多参数量的情况下，YOLOX-L在COCO上取得50.0%AP（比YOLOv5-L高出1.8%的AP）

2021-11-29 00:44:09 1797

原创语义分割之SegFormer分享

今年可以说是分割算法爆发的一年，首先Vit通过引入transform将ADE20K mIOU精度第一次刷到50%，超过了之前HRnet+OCR效果，然后再是Swin屠榜各大视觉任务，在分类，语义分割和实例分割都做到了SOTA，斩获ICCV2021的bset paper，然后Segformer有凭借对transform再次深层次优化，在拿到更高精度的基础之上还大大提升了模型的实时性。

2021-10-15 18:44:54 18657 30

原创语义分割算法分享之Swin-Transformer

在ViT等基础之上继续演变的Swin刚刚拿到了ICCV2021的 best paper，经过实际使用体验来看，确实效果较好，从语义分割角度来看，Swin不仅在ADE20K取得了sota的效果，在各个其他场景数据集下都有极为优秀的表现，精度相比PSPnet和deeplabv3+等基于CNN的分割算法都有较大提升。

2021-10-14 11:04:52 11749 4

原创 Onestage的Anchor生成原理-以Retinanet为例

目前基于onestage的算法一再刷新COCO数据，从19年的Cornernet到Centernet，从今年的ATSS到PAA，再到GFL,VFL,这些算法基本上都是源自基础的onestage之上改进而来，弄清楚整个onestage流程，对于这些算法的理解具有极大的好处。本文从基于onestage的代表RetinaNet出发，详细的将前向推理以及训练阶段整个流程为各位较为完整的梳理一遍。

2020-12-27 21:12:30 1008 1

原创目标检测之Generalized Focal Loss介绍

目标检测从年初的ATSS到PAA,通过优化对正负样本选取的手段将onestage在COCO的AP刷到了46，本文主角GFL在ATSS的基础之上，对focal loss进行改进，提出了GFL，通过大量对比试验证明了有效性，基本上可以说是无损涨点了。

2020-12-26 01:07:50 5533 3

原创 OHEM介绍

在two-stage检测算法中，RPN阶段会生成大量的检测框，由于很多时候一张图片可能只会有少量几个目标，也就是说绝大部分框是没有目标的，为了减少计算就需要进行sample，一般来说fasterrcnn的sample机制是算框和label的IOU，大于0.7认为是正样本，小于0.3是负样本。但是单纯的random_sample选出来的框不一定是最容易错的框。那么ohem就是较好的一种正负样本策略

2020-12-20 22:02:07 2581 1

之前都是用TensorRT6做部署，现在有时间准备试一下最新的TensorRT7但是TensorRT6的问题是不支持pytorch1.3以上的版本。具体的说就是pytorch训练生成的模型文件，通过onnx转换成onnx格式的模型，再通过TensorRT转成engine格式模型，进行前向推倒，每一步都没问题，最后就是报错:ERROR: Network must have at least one output网上的解决方案基本上都是让在生成engine前加这两句来指定最后一层的输出：last_lay

2020-12-16 23:53:59 938 3

原创目标检测之ATSS介绍

这篇论文可以说是2020上半年目标检测最具有价值的文章之一了。直接揭露除了anchor 和anchor free类算法本质的区别，同时提出了一种筛选正负样本的方法，基于ATSS加成的RetinaNet直接吊打众多twostage网络

2020-12-01 00:36:27 18114 10

原创图像分割之U2-Net介绍

U2net是基于unet提出的一种新的网络结构，同样基于encode-decode，作者参考FPN，Unet，在此基础之上提出了一种新模块RSU(ReSidual U-blocks) 经过测试，对于分割物体前背景取得了惊人的效果。同样具有较好的实时性，经过测试在P100上前向时间仅为18ms(56fps)。

2020-11-22 01:49:31 33982 5

原创目标检测组件之FPN介绍

FPN网络可以说是一个非常经典的组件，twostage网络中一般都会加上去，能够有效的提升对小目标的检测能力，cascade_rcnn/faster_rcnn+big backbone+fpn+dcn的经典组合经久不衰。

2020-11-17 00:58:12 3329 2

原创 Backbone之Senet介绍

Senet是Momenta在2017的cvpr上发布的，并且获得了ImageNet当年也应该是最后一届冠军，senet相比较于resnet通过se分支增加了类似nlp的Attention 机制，来更加关注channel之间的关系

2020-11-08 23:50:24 503

原创 Backbone之ResNeXt介绍

resnext在各大检测/分割任务中可以说是常客了，Faster Rcnn/cascade rcnn+xt101+FPN+DCN这一整套可以说是检测分割任务做baseline最好的选择之一了，基本上都不会让人失望，作为特征提取网络的核心，backbone的性能就直接决定了检测或者分割网络的精度。

2020-11-03 00:09:25 1298

原创 Backbone之Res2net介绍

目前现在计算机视觉主流的任务如分类/检测/分割，都需要backbone骨干网络提取特征，在目前的诸多backbone中，都希望通过增加多尺度表征能力来进行性能提升，目前现在大部分网络是在一层一层上使用的多尺度。而本文的主角Res2net通过提出一种全新的CNN模块，通过在残差块里面构建多通道的残差连接，来代替单个3*3的卷积核，res2Net在更细粒度级别表示多尺度特征，同时还具有相当好的泛化性能，res2net能够嵌入到目前主流的CNN网络中去，例如resnet，resnext，DLA，以及senet，作

2020-10-31 19:46:07 4862 3