【论文阅读】BoT-SORT: Robust Associations Multi-Pedestrian Tracking 作者来得很直接,就说他们用相机运动模型和优化卡尔曼做了个可以解决具有挑战的跟踪问题的算法:BOT-SORT;说他们在MOT17&20上表现是最好的。题目:BoT-SORT: Robust Associations Multi-Pedestrian Tracking。这部分相机运动补偿的工作StrongSORT也有做过,使用的是ECC方法;作者:Nir Aharon* Roy Orfaig Ben-Zion Bobrovsky。2)相机运动补偿方式改进bounding box的预测;
【论文阅读】YOLOv10: Real-Time End-to-End Object Detection *NMS-free:**作者设计了2个lables assignments, one-to-one & one-to-many 两个标签分配策略。作者在训练的时候同事监督训练两个策略,在推理的时候用one-to-one,实现nms-free。来实现训练的时候one-to-one & one-to-many 的分配和计算,使one-to-one获得one-to-many最佳的效果。作者觉得YOLO系列的NMS和某些结构非常的耗时,提出NMS-free和一些列高效和低算力消耗的yolov-10.
why DW-Conv still slow? MobileNet、ShuffleNet 在理论上速度很快,工程上并没有特别大的提升.为什么GPU上表现乏力的GPU,到CPU上反而一骑绝尘了呢?深度可分离卷积的总计算量变小了,但深度可分离卷积的层数变多了。若GPU的显存足够大,因为每层的计算都可以并行一次处理,则此时总运算时间的主导因素是网络的层数。...
【tricks: rep-parameters】 组合:3x3卷积核+BN,组合2:1x1卷积核+BN,组合3:BN。这三种组合在推理计算上都可以等效转化成“3x3卷积核+偏置”的形式。我们都知道卷积也是一种线性运算如乘法一样,咱们把三组同规格的卷积核合并成一组卷积核的操作是很简单的。.........
【论文阅读】Swin Transformer V2: Scaling Up Capacity and Resolution 题目:Swin Transformer V2: Scaling Up Capacity and Resolutionmotivation:作者提出了将Swin Transformer缩放到30亿个参数的技术 ,并使其能够使用高达1536×1536分辨率的图像进行训练。作者要做大做强。method:首先,对大型视觉模型的实验揭示了训练中的不稳定性问题。作者发现,在大型模型中,各层之间的激活幅度差异显著增大。仔细观察结构可以发现,这是由直接添加回主分支的残差单元的输出引起的。结果是激活值逐层累积,
【论文阅读】ATSS:Adaptive Training Sample Selection 题目:Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selectionmotivation:作者想找到anchor base 和anchor free 的区别,并设计一种anchor选取的方法。method :分析下RetinaNet和FCOS在算法上的差异,主要有以下3点:RetinaNet在特征图上每个点铺设多个anchor,而FCOS在特征图上每个点
浮点数在计算机中的存储 F=S E M8.25 用二进制表示为:1000.011000.01 转换为科学计数法:1.0001 * 2^3任何一个数的科学计数法表示都为1. xxx * 2^n ,尾数部分就可以表示为xxxx,由于第一位都是1嘛,所以将小数点前面的1省略。E=127+e参考:https://www.cnblogs.com/wuyuan2011woaini/p/4105765.html...
c t c you should know CTC 原理看了那么多的原理,觉得简单易懂的就这个:LOSS:如上图,对于最简单的时序为2的(t0t1)的字符识别,可能的字符为“a”,“b”和“-”,颜色越深代表概率越高。对于真实字符为空即“”的概率为0.60.6=0.36而真实字符为“a”的概率不只是”aa” 即0.40.4 , 实时上,“aa”, “a-“和“-a”都是代表“a”,所以,“a”的概率为:0.40.4 + 0.4 * 0.6 + 0.60.4 = 0.16+0.24+0.24 = 0.64所以“a”的概率比空“”的概率高
【论文阅读】DBNet:Real-time Scene Text Detection with Differentiable Binarization 题目:Real-time Scene Text Detection with Differentiable Binarizationmotivation:文字检测算法可以大致分为两类:基于回归的方法和基于分割的方法。基于分割的方法先通过网络输出图片的文本分割结果,使用预设的阈值将分割结果图转换为二值图。使用阈值来判定前景和背景的操作,这个操作是不可微的,所以无法使用网络将该部分流程放入到网络中训练,本文通过学习threshmap和使用可微的操作来将阈值转换放入到网络中训练。作者想让二值化更牛逼。met
AUC you should know AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积.一个二分类模型的阈值可能设定为高或低,每种阈值的设定会得出不同的 FPR 和 TPR ,将同一模型每个阈值的 (FPR, TPR) 坐标都画在 ROC 空间里,就成为特定模型的ROC曲线。ROC曲线横坐标为假正率(FPR),纵坐标为真正率(TPR)。e.g...
【论文阅读】DETR (ECCV2020)|End-to-End Object Detection with Transformers 题目:End-to-End Object Detection with Transformers作者:Facebook AI – Nicolas Carion , Francisco Massa , Gabriel Synnaeve, Nicolas Usunier,Alexander Kirillov, and Sergey Zagoruykomotivation:作者想直接预测无序集合method:亮点我觉得有2:1)采用了transformer的模型架构;2)采用匈牙利算法的无序预
卡尔曼滤波 例如,n个人干n项工作的指派问题,如何让总的开销最小。首先知道其代价矩阵:from scipy.optimize import linear_sum_assignment cost =np.array([[4,1,3],[2,0,5],[3,2,2]])row_ind,col_ind=linear_sum_assignment(cost)print(row_ind)#开销矩阵对应的行索引print(col_ind)#对应行索引的最优指派的列索引print(cost[row_ind,col_