自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

一碗白开水一

一碗白开水一

  • 博客(93)
  • 收藏
  • 关注

原创 why DW-Conv still slow?

MobileNet、ShuffleNet 在理论上速度很快,工程上并没有特别大的提升.为什么GPU上表现乏力的GPU,到CPU上反而一骑绝尘了呢?深度可分离卷积的总计算量变小了,但深度可分离卷积的层数变多了。若GPU的显存足够大,因为每层的计算都可以并行一次处理,则此时总运算时间的主导因素是网络的层数。...

2022-06-30 16:24:46 353 1

原创 【tricks: rep-parameters】

组合:3x3卷积核+BN,组合2:1x1卷积核+BN,组合3:BN。这三种组合在推理计算上都可以等效转化成“3x3卷积核+偏置”的形式。我们都知道卷积也是一种线性运算如乘法一样,咱们把三组同规格的卷积核合并成一组卷积核的操作是很简单的。.........

2022-06-30 15:32:22 139

原创 机器视觉-坐标变换

仿射变换透视变换u,v是原始图片坐标,对应得到变换后的图片坐标x,y:

2022-03-11 10:18:29 541

原创 【论文阅读】Swin Transformer V2: Scaling Up Capacity and Resolution

题目:Swin Transformer V2: Scaling Up Capacity and Resolutionmotivation:作者提出了将Swin Transformer缩放到30亿个参数的技术 ,并使其能够使用高达1536×1536分辨率的图像进行训练。作者要做大做强。method:首先,对大型视觉模型的实验揭示了训练中的不稳定性问题。作者发现,在大型模型中,各层之间的激活幅度差异显著增大。仔细观察结构可以发现,这是由直接添加回主分支的残差单元的输出引起的。结果是激活值逐层累积,

2022-03-08 15:06:28 4165

原创 S-V-M

采用序列最小优化(SMO)算法求解αi\alpha_iαi​

2022-02-28 18:18:39 149

原创 【论文阅读】ATSS:Adaptive Training Sample Selection

题目:Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selectionmotivation:作者想找到anchor base 和anchor free 的区别,并设计一种anchor选取的方法。method :分析下RetinaNet和FCOS在算法上的差异,主要有以下3点:RetinaNet在特征图上每个点铺设多个anchor,而FCOS在特征图上每个点

2022-02-28 15:09:39 175

原创 【论文阅读】Generalized Focal Loss

Generalized Focal Loss

2022-02-24 11:38:05 303

原创 [tricks]D-e-c-o-u-p-l-e-d H-e-a-d

yolox 中提出:

2022-02-24 11:03:44 523

原创 浮点数在计算机中的存储

F=S E M8.25 用二进制表示为:1000.011000.01 转换为科学计数法:1.0001 * 2^3任何一个数的科学计数法表示都为1. xxx * 2^n ,尾数部分就可以表示为xxxx,由于第一位都是1嘛,所以将小数点前面的1省略。E=127+e参考:https://www.cnblogs.com/wuyuan2011woaini/p/4105765.html...

2022-02-22 14:51:09 83

原创 c t c you should know

CTC 原理看了那么多的原理,觉得简单易懂的就这个:LOSS:如上图,对于最简单的时序为2的(t0t1)的字符识别,可能的字符为“a”,“b”和“-”,颜色越深代表概率越高。对于真实字符为空即“”的概率为0.60.6=0.36而真实字符为“a”的概率不只是”aa” 即0.40.4 , 实时上,“aa”, “a-“和“-a”都是代表“a”,所以,“a”的概率为:0.40.4 + 0.4 * 0.6 + 0.60.4 = 0.16+0.24+0.24 = 0.64所以“a”的概率比空“”的概率高

2021-12-13 17:17:02 1283

原创 【论文阅读】DBNet:Real-time Scene Text Detection with Differentiable Binarization

题目:Real-time Scene Text Detection with Differentiable Binarizationmotivation:文字检测算法可以大致分为两类:基于回归的方法和基于分割的方法。基于分割的方法先通过网络输出图片的文本分割结果,使用预设的阈值将分割结果图转换为二值图。使用阈值来判定前景和背景的操作,这个操作是不可微的,所以无法使用网络将该部分流程放入到网络中训练,本文通过学习threshmap和使用可微的操作来将阈值转换放入到网络中训练。作者想让二值化更牛逼。met

2021-12-02 17:04:29 3108

原创 AUC you should know

AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积.一个二分类模型的阈值可能设定为高或低,每种阈值的设定会得出不同的 FPR 和 TPR ,将同一模型每个阈值的 (FPR, TPR) 坐标都画在 ROC 空间里,就成为特定模型的ROC曲线。ROC曲线横坐标为假正率(FPR),纵坐标为真正率(TPR)。e.g...

2021-10-21 16:27:08 79

原创 cv-INTVIEW you shold prepare.

python 基础数据结构机器学习基础opencvDPL

2021-08-09 16:43:55 265

原创 【论文阅读】YOLO-X:Exceeding YOLO Series in 2021

题目:YOLOX: Exceeding YOLO Series in 2021

2021-08-05 11:52:15 5825

原创 【论文阅读】DETR (ECCV2020)|End-to-End Object Detection with Transformers

题目:End-to-End Object Detection with Transformers作者:Facebook AI – Nicolas Carion , Francisco Massa , Gabriel Synnaeve, Nicolas Usunier,Alexander Kirillov, and Sergey Zagoruykomotivation:作者想直接预测无序集合method:亮点我觉得有2:1)采用了transformer的模型架构;2)采用匈牙利算法的无序预

2021-07-28 17:51:04 446

原创 卡尔曼滤波

例如,n个人干n项工作的指派问题,如何让总的开销最小。首先知道其代价矩阵:from scipy.optimize import linear_sum_assignment cost =np.array([[4,1,3],[2,0,5],[3,2,2]])row_ind,col_ind=linear_sum_assignment(cost)print(row_ind)#开销矩阵对应的行索引print(col_ind)#对应行索引的最优指派的列索引print(cost[row_ind,col_

2021-07-28 16:06:40 100

原创 TRS 中的position embedding

2021-07-27 18:28:34 114

原创 网址记录lg

picture downloader

2021-07-26 16:09:55 90

原创 简话S E G(持续更新)

FCNFCN-32XFCN-16XFCN-8X

2021-07-15 15:36:00 205

原创 Aplicaction of DPL

行业应用计算机视觉的行业应用,已成熟产业化的主要有如下六个领域:(1). 安防监控领域,包括人脸识别、行为识别、运动跟踪、人群分析等等,利用卡口精准位置布控视频监测,实现了监控区域内异常的自动识别,例如动态视频中的人脸与黑名单库实时比对检测,多视点视频协同分析运行轨迹,视频数据结构化后对关键目标的检索等等;(2). 互联网娱乐场景,包括拍照优化、视频优化、实时人像美颜、AR特效、自定义背景等等,丰富了直播、短视频等互联网娱乐应用;(3). 金融身份认证场景,包括各种刷脸的金融应用,如远程开户、支付取

2021-07-12 17:37:07 165

原创 [论文阅读]YOLOF:You Only Look One-level Feature

题目:作者:motivation:YOLOF虽然和YOLO没啥关系,针对FPN做的一个工作,理论创新性还是蛮大的methods:experiments:

2021-06-21 10:37:10 214

原创 Docker you should know

build:使用当前目录的 Dockerfile 创建镜像,标签为 runoob/ubuntu:v1。docker build -t runoob/ubuntu:v1 .

2021-05-10 15:02:01 64

原创 [tricks] C o o r d C o n v

class AddCoords(nn.Module): def __init__(self, with_r=False): super().__init__() self.with_r = with_r def forward(self, input_tensor): """ Args: input_tensor: shape(batch, channel, x_dim, y_dim)

2021-04-16 11:14:21 184 1

原创 [tricks] G-r-i-d S-e-n-s-itive

Grid Sensitive:#Grid Sensitiveself.scale_x_y=1.05pxy = torch.sigmoid(ps[..., :2])pxy = self.scale_x_y * pxy - 0.5 * (self.scale_x_y -1.0)

2021-04-15 13:51:52 333

原创 [论文阅读]:PP-YOLO: An Effective and Efficient Implementation of Object Detector

题目:PP-YOLO: An Effective and Efficient Implementation of Object Detector作者:Xiang Long, Kaipeng Deng, Guanzhong Wang, Yang Zhang, Qingqing Dang,Yuan Gao, Hui Shen, Jianguo Ren, Shumin Han, Errui Ding, Shilei Wen(百度团队)motivation: 还是速度和效果不能兼得的问题,作者想兼得速度与效果

2021-04-13 17:39:35 494

原创 [tricks] IoU Aware

IoU Aware

2021-04-13 17:25:54 195

原创 N-M-S you should know

triks: matrix NMS

2021-04-13 17:14:47 1283

原创 the way of DPL

CNN-卷积神经网络RNN-循环(递归)神经网络GAN-生成对抗网络AE-自编码器MLP-多层感知机DBN-深度置信网络BM-玻尔兹曼机

2021-03-11 16:19:31 79

原创 AARCH64移植答疑

pip install librosa?1、安装LLVM+CLONG下载LLVM解压 tar xJvf clang+llvm-X.0.0-aarch64-linux-gnu.tar.xz添加环境变量: add path: xxx/clang+llvm-X.0.0-aarch64-linux-gnu/bin

2021-01-27 15:31:16 542 3

原创 language model ,you should know...

1、N-Gram在深度学习之前最常用的技术是N-gram语言模型问题:N-gram的问题是训练资料仍然不足,会限制精度,即某种N-gram没有出现并不能代表它们出现几率是0,language model smoothing的技术可以用来解决这一问题解决方法:方法来源于推荐系统中的矩阵分解,通过最小化目标函数来估计单词向量,如果两个单词向量越接近,则这两个单词后面接某个单词的概率应相似,通过h向量和v向量相乘来计算连续语言模型中的表格中的值。连续语言模型和深度学习的关系,即相当于只有一层的神经.

2021-01-21 14:10:30 92

原创 seq 2 seq, you should know...

encoder:decoder:对于图片也可以:

2021-01-18 15:25:34 52

原创 A t t e n t i o n , you should know...

由于seq2seq模型中,decoder 非常依赖encoder后的context.但context中的信息太多,不能针对性的生成正确的decoder.因此引入attention.Match函数可以自己设计,z1 是c0 输入到RNN后hidden layer的输出qj=WqZjq_j = W_qZ_jqj​=Wq​Zj​ki=Wkhik_i = W_kh_iki​=Wk​hi​vi=Wvhiv_i = W_vh_ivi​=Wv​hi​[a1j,a2j,...,anj]=softmax([k1,k

2021-01-15 17:38:24 193

原创 T r a n s f o r m e r , you should konw...

首先被google提出的 transformer is all you need 中提出的。对于有时序的模型来说,RNN 是需要依靠前/后的信息,不能并行处理。Transformer 则采用CNN 替换rnn来实现并行处理。

2021-01-14 14:17:30 235

原创 AI-DPL, you should know

CV分类目标检测目标跟踪超分辨率图像还原(去噪、修复)图像分割(语义分割、 实例分割)NLP文本朗读(Text to speech)/语音合成(Speech synthesis)语音识别(Speech recognition)中文自动分词(Chinese word segmentation)词性标注(Part-of-speech tagging)命名实体识别(Named Entity Recognition)句法分析(Parsing)自然语言生成(Natural languag

2020-12-04 15:46:54 118

原创 [论文解读]ICCV 2019|LRF:Learning Rich Features at High-Speed for Single-Shot Object Detection

题目:Learning Rich Features at High-Speed for Single-Shot Object Detection作者:Tiancai Wang, Rao Muhammad Anwer , Hisham Cholakkal , Fahad Shahbaz Khan Yanwei Pang , Ling Shao 2Motivation:作者认为从头开始训练太慢,但又怕失去精度,因此提出在backbone旁边加一个LSN网络,合并两者优点;并且觉得top-down的网络,

2020-11-25 17:58:29 231

原创 MMdet 网络集简介

mmdet网络简介: [RPN]:采用select-search的方法生成候选框,并将每个候选框送入网络,并做分类,其计算量大。 [Fast R-CNN]:在RPNj基础上引入ROI pooling算法。 [Faster R-CNN]:在Fast-rcc基础上引入RPN算法。 [Mask R-CNN]:在 Faster R-CNN基础上引入ROI-aliment算法。 [Cascade R-CNN]: 采用了Cascade的骨架模型,使算法更高效。 [Cascade Mask R-CNN]:融

2020-11-02 13:53:56 7862 2

原创 概率函数P(x)、概率分布函数F(x)、概率密度函数f(x)

还是只写重点:离散型变量取某个值xi的概率P(xi)是个确定的值(虽然很多时候我们不知道这个值是多少),即P(xi)≠0:例如,投一次骰子出现2点的概率是P(2)=1/6。连续型变量取某个值xi的概率P(xi)=0:对于连续型变量而言,“取某个具体值的概率”的说法是无意义的,因为取任何单个值的概率都等于0,只能说“取值落在某个区间内的概率”,或“取值落在某个值邻域内的概率”,即只能说P(a<xi≤b),而不能说P(xi)。**为什么是这样?**且看下例:  例如,从所有自然数中任取一个数,问这个

2020-09-11 18:01:54 2674

原创 I-O-U you should know

SmoothL1->IoU->GIoU->DIoU->CIoU LossSmoothL1由微软rgb大神在Fast RCNN论文提出设x为 真实值与预测值之间的差L1_LOSS=∣x∣L1\_LOSS = |x|L1_LOSS=∣x∣缺点:1) L1_LOSSL1\_LOSSL1_LOSS损失函数在0处不可导;2) L1_LOSSL1\_LOSSL1_LOSS对x的导数为常数,在训练后期,x很小时,如果learning rate 不变,损失函数会在稳定值附近波动,很

2020-08-21 17:07:29 402

原创 [论文阅读]CBNet|A Novel Composite Backbone Network Architecture for Object Detection

题目: A Novel Composite Backbone Network Architecture for Object Detection作者: Yudong Liu,1 Yongtao Wang,1 Siwei Wang,1 TingTing Liang,1Qijie Zhao,1 Zhi Tang,1 Haibin Ling 2Motivation:作者觉得目标检测网络的backbone非常重要,于是要优化一个牛逼的backbone出来,于是乎CBNet问世。Method:就是把多个ba

2020-08-13 10:06:45 396

原创 [论文阅读]ResNetXt|Aggregated Residual Transformations for Deep Neural Networks

题目: Aggregated Residual Transformations for Deep Neural Networks作者: Saining Xie; Ross Girshick ; Piotr Doll´ar;Zhuowen Tu; Kaiming He看到Kaiming He就不陌生了吧Motivation:作者还是为了找到一种更优的方法或者卷积方式来做目标分类。于是乎提出ResNetXt。Method:作者想出这样一种方法:a)b)只是concatenate的方法不一样,c

2020-08-12 17:05:22 959

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除