CV
文章平均质量分 78
#苦行僧
这是我随心所欲记录笔记的地方,喜欢的方向:| NLP | CV | ML | 搜广推 | SE+AI |。
展开
-
【2022中国高校计算机大赛 微信大数据挑战赛】Top 1-6 方案总结
【2022中国高校计算机大赛 微信大数据挑战赛】Top 1-6 方案总结原创 2022-09-17 16:42:28 · 4078 阅读 · 3 评论 -
《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》论文笔记
这里简单记录下对swin transformer的原理学习(实验不讲),后面细看论文后再继续补充。swin transformer可作为视觉任务的一个通用backbone。transformer在nlp领域取得了巨大成功。那么,将其应用到cv,主要有两点挑战:1.图像的像素点巨多,当前序列输入transformer计算量巨大。2.图像中有各种大小的实体对象,而在文本种是没有这种现象的。成就: swin transformer在图像分类、目标检测、语义分割上SOTA。以及后面研究者利用swin的思想刷原创 2022-07-02 17:14:18 · 958 阅读 · 0 评论 -
目标检测中的Anchor Boxes
Why we use anchor box? 由于目标检测中的每个grid cell只能预测一个对象,但当两个对象的中点落在一个格子中时(如图),不得不从中选出一个对象,导致一些对象无法检测出来,这时就要用到anchor box。 假设我们要预测3种类别:人,汽车,摩托。当我们没用anchor box时,输出如上图y所示。这里假设我们预先定义了两个anchor box: 输出将变成如下形式,即包含两个anchor box的信息: 那么使用哪个anchor box进行预测呢,是根据目标对象与每原创 2021-02-14 14:08:55 · 405 阅读 · 0 评论 -
FPN (feature pyramid network)特征金字塔网络
这里主要讲下FPN的结构设计。 我们知道一副图像中包含的物体有大有小,随着网络层数的加深,feature map也会变得越来越小,那么小物体的特征就有可能被过滤掉。 在SSD网络中的一种做法就是:对不同深度的feature map直接进行目标检测,这样小物体就有可能在比较大的feature map上被检测出来,从而实现了不同尺度的识别。 但是,有个问题,就是不同层次的feature map,它所包含的信息级别是不同的。浅层主要体现的是低级的信息,而深层则体现的是较为高级抽象的语义信息。所以听起来好.原创 2021-02-15 12:33:24 · 1617 阅读 · 1 评论 -
利用卷积层实现滑动窗口(Convolutional implementation of sliding windows)
利用滑动窗口进行目标检测时,低级做法是:滑动一下窗口,送入CNN执行一次分类,再滑一下,再分类。。。。这样效率太低。 我们很容易发现,在每次滑动得到的窗口卷积的过程中,很多地方是重复进行了卷积,那我们可不可以一次性送入整张图片,直接得到所有滑动窗口的结果呢?Sure! 假设我们有个14x14x3的图,其要送入如图所示的+全连接的网络进行分类: 那么由于全连接层的存在,会改变原先矩阵的结构,无法达到我们只传入一整张图实现所有滑动窗口的目的(即FC的存在会使输入图像固定大小)。 所以我们先要将全连原创 2021-02-14 15:12:06 · 3164 阅读 · 8 评论 -
YOLOv4结构以及用到的tricks与创新总结
本文参考了几位大佬的文章,然后作了下总结。(文中用到的图大部分来源于他们的文章,还有各算法对应的论文)文末参考链接附有这几位大佬的博客地址。先放上YOLOv3和YOLOv4的结构图,好有个大致的思路:YOLOv3:YOLOv4:图中的说明:1. Concat:张量拼接,会扩充两个张量的维度,例如2626256和2626512两个张量拼接,结果是2626768。Concat和cfg文件中的route功能一样。2. add:张量相加,张量直接相加,不会扩充维度,例如104104128和10410原创 2021-02-16 18:26:31 · 2994 阅读 · 4 评论 -
Recall, Precision, AP, mAP的计算方法(看一次就懂系列)
Recall, Precision, AP, mAP的计算方法(看一次就懂系列) mAP全称是mean Average Precision,这里的Average Precision,是在不同recall下计算得到的,所以要知道什么是mAP,要先了解recall(召回率)和precision(精确率)。Recall and Precision recall和precision是二分类问题中常用的评价指标,通常以关注的类为正类,其他类为负类,分类器的结果在测试数据上有4种情况:举例说明: 假设我转载 2021-02-23 18:29:46 · 20547 阅读 · 7 评论 -
目标检测中的NMS算法(Non-max suppression)
非极大值抑制,即找到局部极大值,而非最大值,并抑制其领域内的其余值。在目标检测中,对于一个物体可能会预测出多个候选框,那么这时就可以用极大值抑制对一些冗余的框进行滤除。 一般来说,每一个预测框的输出都会带有该框的位置信息以及置信度。 NMS算法流程:首先,对所有的框,通过一个置信度阈值将置信度低的框滤除。接着,选出置信度最高的框,将其保存进输出列表中。依次计算该框与其他剩余的框的IOU值。然后通过一个IOU阈值将和这个置信度最高的框拥有较大IOU的框(即和这个框相近的框)去除。也就是去掉冗余原创 2021-02-14 00:09:52 · 3698 阅读 · 0 评论 -
yolov4环境配置教程以及训练自己的数据集
本资料配置环境是Windows 10。教程里包含了以下配置安装教程:1、darknet版本的yolov4: https://github.com/AlexeyAB/darknet2、VisualStudio2193、OpenCV4、CUDA5、cudnn以及如何利用yolov4训练自己的数据集过程步骤等。具体资料目录如下:有需要资料者,请添加 qq:1029383828(备注:需要yolov4资料)......原创 2021-02-23 18:43:06 · 751 阅读 · 0 评论