一碗白开水一-CSDN博客

原创【小车运动卡尔曼滤波实例：位置与速度估计】

通过上述实例，展示了卡尔曼滤波在一维匀速直线运动中的应用。公式推导清晰，Python 代码实现了完整的滤波过程，结果验证了卡尔曼滤波的有效性。

2025-04-10 15:15:19 995

原创【论文阅读】BoT-SORT: Robust Associations Multi-Pedestrian Tracking

作者来得很直接，就说他们用相机运动模型和优化卡尔曼做了个可以解决具有挑战的跟踪问题的算法:BOT-SORT;说他们在MOT17&20上表现是最好的。题目：BoT-SORT: Robust Associations Multi-Pedestrian Tracking。这部分相机运动补偿的工作StrongSORT也有做过，使用的是ECC方法；作者：Nir Aharon* Roy Orfaig Ben-Zion Bobrovsky。2)相机运动补偿方式改进bounding box的预测；

2024-08-13 16:49:17 583 1

原创【论文阅读】YOLOv10: Real-Time End-to-End Object Detection

*NMS-free：**作者设计了2个lables assignments, one-to-one & one-to-many 两个标签分配策略。作者在训练的时候同事监督训练两个策略，在推理的时候用one-to-one，实现nms-free。来实现训练的时候one-to-one & one-to-many 的分配和计算，使one-to-one获得one-to-many最佳的效果。作者觉得YOLO系列的NMS和某些结构非常的耗时，提出NMS-free和一些列高效和低算力消耗的yolov-10.

2024-08-13 11:09:00 399 1

原创 why DW-Conv still slow?

MobileNet、ShuffleNet 在理论上速度很快，工程上并没有特别大的提升.为什么GPU上表现乏力的GPU，到CPU上反而一骑绝尘了呢？深度可分离卷积的总计算量变小了，但深度可分离卷积的层数变多了。若GPU的显存足够大，因为每层的计算都可以并行一次处理，则此时总运算时间的主导因素是网络的层数。...

2022-06-30 16:24:46 450

原创【tricks: rep-parameters】

组合：3x3卷积核+BN，组合2：1x1卷积核+BN，组合3：BN。这三种组合在推理计算上都可以等效转化成“3x3卷积核+偏置”的形式。我们都知道卷积也是一种线性运算如乘法一样，咱们把三组同规格的卷积核合并成一组卷积核的操作是很简单的。.........

2022-06-30 15:32:22 207

原创机器视觉-坐标变换

仿射变换透视变换u,v是原始图片坐标，对应得到变换后的图片坐标x,y：

2022-03-11 10:18:29 654

原创【论文阅读】Swin Transformer V2: Scaling Up Capacity and Resolution

题目：Swin Transformer V2: Scaling Up Capacity and Resolutionmotivation:作者提出了将Swin Transformer缩放到30亿个参数的技术，并使其能够使用高达1536×1536分辨率的图像进行训练。作者要做大做强。method:首先，对大型视觉模型的实验揭示了训练中的不稳定性问题。作者发现，在大型模型中，各层之间的激活幅度差异显著增大。仔细观察结构可以发现，这是由直接添加回主分支的残差单元的输出引起的。结果是激活值逐层累积，

2022-03-08 15:06:28 4300

原创 S-V-M

采用序列最小优化（SMO）算法求解αi\alpha_iαi

2022-02-28 18:18:39 215

原创【论文阅读】ATSS:Adaptive Training Sample Selection

题目：Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selectionmotivation:作者想找到anchor base 和anchor free 的区别，并设计一种anchor选取的方法。method ：分析下RetinaNet和FCOS在算法上的差异，主要有以下3点：RetinaNet在特征图上每个点铺设多个anchor，而FCOS在特征图上每个点

2022-02-28 15:09:39 249

原创【论文阅读】Generalized Focal Loss

Generalized Focal Loss

2022-02-24 11:38:05 407

原创 [tricks]D-e-c-o-u-p-l-e-d H-e-a-d

yolox 中提出：

2022-02-24 11:03:44 588

原创浮点数在计算机中的存储

F=S E M8.25 用二进制表示为：1000.011000.01 转换为科学计数法：1.0001 * 2^3任何一个数的科学计数法表示都为1. xxx * 2^n ，尾数部分就可以表示为xxxx，由于第一位都是1嘛，所以将小数点前面的1省略。E=127+e参考：https://www.cnblogs.com/wuyuan2011woaini/p/4105765.html...

2022-02-22 14:51:09 132

原创 c t c you should know

CTC 原理看了那么多的原理，觉得简单易懂的就这个：LOSS:如上图，对于最简单的时序为２的（t0t1）的字符识别，可能的字符为“ａ”，“ｂ”和“－”，颜色越深代表概率越高。对于真实字符为空即“”的概率为0.60.6=0.36而真实字符为“ａ”的概率不只是”aa” 即0.40.4 ,　实时上，“aa”, “a-“和“-a”都是代表“ａ”，所以，“ａ”的概率为：0.40.4 + 0.4 * 0.6 + 0.60.4 = 0.16+0.24+0.24 = 0.64所以“ａ”的概率比空“”的概率高

2021-12-13 17:17:02 1341

原创【论文阅读】DBNet:Real-time Scene Text Detection with Differentiable Binarization

题目：Real-time Scene Text Detection with Differentiable Binarizationmotivation:文字检测算法可以大致分为两类：基于回归的方法和基于分割的方法。基于分割的方法先通过网络输出图片的文本分割结果，使用预设的阈值将分割结果图转换为二值图。使用阈值来判定前景和背景的操作，这个操作是不可微的，所以无法使用网络将该部分流程放入到网络中训练，本文通过学习threshmap和使用可微的操作来将阈值转换放入到网络中训练。作者想让二值化更牛逼。met

2021-12-02 17:04:29 3248

原创 AUC you should know

AUC（Area Under Curve）被定义为ROC曲线下与坐标轴围成的面积.一个二分类模型的阈值可能设定为高或低，每种阈值的设定会得出不同的 FPR 和 TPR ，将同一模型每个阈值的 (FPR, TPR) 坐标都画在 ROC 空间里，就成为特定模型的ROC曲线。ROC曲线横坐标为假正率（FPR），纵坐标为真正率（TPR）。e.g...

2021-10-21 16:27:08 138

原创 cv-INTVIEW you shold prepare.

python 基础数据结构机器学习基础opencvDPL

2021-08-09 16:43:55 304

原创【论文阅读】YOLO-X:Exceeding YOLO Series in 2021

题目：YOLOX: Exceeding YOLO Series in 2021

2021-08-05 11:52:15 7810

原创【论文阅读】DETR (ECCV2020)|End-to-End Object Detection with Transformers

题目：End-to-End Object Detection with Transformers作者：Facebook AI – Nicolas Carion , Francisco Massa , Gabriel Synnaeve, Nicolas Usunier,Alexander Kirillov, and Sergey Zagoruykomotivation:作者想直接预测无序集合method：亮点我觉得有2：1）采用了transformer的模型架构；2）采用匈牙利算法的无序预

2021-07-28 17:51:04 565

原创卡尔曼滤波

例如，n个人干n项工作的指派问题，如何让总的开销最小。首先知道其代价矩阵：from scipy.optimize import linear_sum_assignment cost =np.array([[4,1,3],[2,0,5],[3,2,2]])row_ind,col_ind=linear_sum_assignment(cost)print(row_ind)#开销矩阵对应的行索引print(col_ind)#对应行索引的最优指派的列索引print(cost[row_ind,col_

2021-07-28 16:06:40 155

原创 TRS 中的position embedding

2021-07-27 18:28:34 146

原创网址记录lg

picture downloader

2021-07-26 16:09:55 163

原创简话S E G（持续更新）

FCNFCN-32XFCN-16XFCN-8X

2021-07-15 15:36:00 442

原创 Aplicaction of DPL

行业应用计算机视觉的行业应用，已成熟产业化的主要有如下六个领域：(1). 安防监控领域，包括人脸识别、行为识别、运动跟踪、人群分析等等，利用卡口精准位置布控视频监测，实现了监控区域内异常的自动识别，例如动态视频中的人脸与黑名单库实时比对检测，多视点视频协同分析运行轨迹，视频数据结构化后对关键目标的检索等等；(2). 互联网娱乐场景，包括拍照优化、视频优化、实时人像美颜、AR特效、自定义背景等等，丰富了直播、短视频等互联网娱乐应用；(3). 金融身份认证场景，包括各种刷脸的金融应用，如远程开户、支付取

2021-07-12 17:37:07 239

原创 [论文阅读]YOLOF:You Only Look One-level Feature

题目：作者：motivation:YOLOF虽然和YOLO没啥关系，针对FPN做的一个工作，理论创新性还是蛮大的methods:experiments:

2021-06-21 10:37:10 282

原创 Docker you should know

build:使用当前目录的 Dockerfile 创建镜像，标签为 runoob/ubuntu:v1。docker build -t runoob/ubuntu:v1 .

2021-05-10 15:02:01 101

原创 [tricks] C o o r d C o n v

class AddCoords(nn.Module): def __init__(self, with_r=False): super().__init__() self.with_r = with_r def forward(self, input_tensor): """ Args: input_tensor: shape(batch, channel, x_dim, y_dim)

2021-04-16 11:14:21 278 1

原创 [tricks] G-r-i-d S-e-n-s-itive

Grid Sensitive:#Grid Sensitiveself.scale_x_y=1.05pxy = torch.sigmoid(ps[..., :2])pxy = self.scale_x_y * pxy - 0.5 * (self.scale_x_y -1.0)

2021-04-15 13:51:52 376

原创 [论文阅读]:PP-YOLO: An Effective and Efficient Implementation of Object Detector

题目：PP-YOLO: An Effective and Efficient Implementation of Object Detector作者：Xiang Long, Kaipeng Deng, Guanzhong Wang, Yang Zhang, Qingqing Dang,Yuan Gao, Hui Shen, Jianguo Ren, Shumin Han, Errui Ding, Shilei Wen（百度团队）motivation: 还是速度和效果不能兼得的问题，作者想兼得速度与效果

2021-04-13 17:39:35 587

原创 [tricks] IoU Aware

IoU Aware

2021-04-13 17:25:54 239

原创 N-M-S you should know

triks: matrix NMS

2021-04-13 17:14:47 1356

原创 the way of DPL

CNN-卷积神经网络RNN-循环(递归)神经网络GAN-生成对抗网络AE-自编码器MLP-多层感知机DBN-深度置信网络BM-玻尔兹曼机

2021-03-11 16:19:31 117

原创 AARCH64移植答疑

pip install librosa?1、安装LLVM+CLONG下载LLVM解压 tar xJvf clang+llvm-X.0.0-aarch64-linux-gnu.tar.xz添加环境变量： add path: xxx/clang+llvm-X.0.0-aarch64-linux-gnu/bin

2021-01-27 15:31:16 652 3

原创 language model ,you should know...

1、N-Gram在深度学习之前最常用的技术是N-gram语言模型问题：N-gram的问题是训练资料仍然不足，会限制精度，即某种N-gram没有出现并不能代表它们出现几率是0，language model smoothing的技术可以用来解决这一问题解决方法：方法来源于推荐系统中的矩阵分解，通过最小化目标函数来估计单词向量，如果两个单词向量越接近，则这两个单词后面接某个单词的概率应相似，通过h向量和v向量相乘来计算连续语言模型中的表格中的值。连续语言模型和深度学习的关系，即相当于只有一层的神经.

2021-01-21 14:10:30 130

原创 seq 2 seq, you should know...

encoder:decoder:对于图片也可以：

2021-01-18 15:25:34 85

原创 self A t t e n t i o n , you should know...

由于seq2seq模型中，decoder 非常依赖encoder后的context.但context中的信息太多，不能针对性的生成正确的decoder.因此引入attention.Match函数可以自己设计,z1 是c0 输入到RNN后hidden layer的输出qj=WqZjq_j = W_qZ_jqj=WqZjki=Wkhik_i = W_kh_iki=Wkhivi=Wvhiv_i = W_vh_ivi=Wvhi[a1j,a2j,...,anj]=softmax([k1,k

2021-01-15 17:38:24 237

原创 T r a n s f o r m e r , you should konw...

首先被google提出的 transformer is all you need 中提出的。对于有时序的模型来说，RNN 是需要依靠前/后的信息，不能并行处理。Transformer 则采用CNN 替换rnn来实现并行处理。

2021-01-14 14:17:30 367

原创 AI-DPL, you should know

CV分类目标检测目标跟踪超分辨率图像还原（去噪、修复）图像分割（语义分割、实例分割）NLP文本朗读（Text to speech）/语音合成（Speech synthesis）语音识别（Speech recognition）中文自动分词（Chinese word segmentation）词性标注（Part-of-speech tagging）命名实体识别（Named Entity Recognition）句法分析（Parsing）自然语言生成（Natural languag

2020-12-04 15:46:54 162

原创 [论文解读]ICCV 2019|LRF：Learning Rich Features at High-Speed for Single-Shot Object Detection

题目：Learning Rich Features at High-Speed for Single-Shot Object Detection作者：Tiancai Wang, Rao Muhammad Anwer , Hisham Cholakkal , Fahad Shahbaz Khan Yanwei Pang , Ling Shao 2Motivation:作者认为从头开始训练太慢，但又怕失去精度，因此提出在backbone旁边加一个LSN网络，合并两者优点；并且觉得top-down的网络，

2020-11-25 17:58:29 349

空空如也

空空如也