- 博客(132)
- 资源 (1)
- 收藏
- 关注
原创 Multistage Enhancement Network for Tiny Object Detection in Remote Sensing Images
小目标检测面临着两个挑战:1、Iou对微小物体位置偏差的高灵敏度2、微小物体低质量特征表示为了解决上述问题,我们提出了多阶段增强网络MENet,该网络完成了对检测器多个阶段微小物体的实例级和特征级增强,由于基于IoU的标签分配极大地恶化了微小物体的正样本,我们首先提出了一种基于中心区域(CR)的标签分配,以在区域建议网络(RPN)中替换它。CR标签分配将落入地面真值框CR中的锚点视为阳性样本,这为微小物体提供了更多的阳性样本。
2024-08-17 17:51:09 554
原创 深度学习之参数初始化问题
如果输入不止3个,而是n个输入,y的离散程度将会被进一步放大,当不使用任何激活函数的时候,放大的y值将被累积在反向传播的过程里,这将造成梯度爆炸,如果使用tanh作为激活函数,也有可能因为y的值过大或者过小得到一个非常小或者非常大的梯度,造成梯度爆炸和梯度消失。当参数都初始化为0,两个神经元的梯度一样,初始值一样,最后会导致训练过程中的变化也一样,无法学习更复杂的特征,这种情况称为对称现象。2、方差的线性性质:对于两个随机变量X和Y,如果它们是独立的,那么Var(X+Y) = Var(X) +Var(Y)
2024-08-03 20:49:06 998
原创 Sobel Operator
边缘是指图像中灰度或颜色强度发生显著变化的区域。Sobel算子是一种用于图像处理的边缘检测算子。它通过计算图像灰度值的梯度来检测图像中的边缘。
2024-07-30 20:25:10 277
原创 pytorch-广播机制
如果对应维度为1,则扩展到相同尺寸,如果对应没有维度,也扩展到相同尺寸,除此以外均无法扩展。B[8] = [0,0,5,0,0,0,0,0] => B[4, 32, 8] 给每一个学生的第三门课加5分。B[1] => B[4, 32, 8] 给每一个学生每一门课加5分。B[4] 无法广播自动扩展,因为维度对不上,产生歧义?A[4, 32 ,8] 4个班级32个学生八门课。什么时候需要使用broadcasting?为什么要使用broadcasting?
2024-07-30 14:35:00 393
原创 Feature Corrective Transfer Learning (2024CVPR)
特征相似性损失Lfs旨在有效地衡量在理想图像上训练的模型特征图与在非理想图像上训练的模型特征图在结构和内容上的差异。该机制确保了平衡的模型训练,优先考虑早期阶段的主要差异以获得整体性能,并随着特征图差异的减少,在后期阶段转向更精细的调整,促进细微的结构对齐,以提高目标检测精度。它评估由半径rL定义的扩展领域内梯度变化的一致性。时变衰减因子,引入了一种动态机制来调整整个训练期间损失函数的响应性,这一因素的实施促进了模型重点的方法转变,从纠正初始训练阶段的突出结构差异到在训练过程的后续阶段磨练更精细的细节。
2024-07-30 11:33:17 606
原创 Pytorch的基本数据类型
pytorch和python的数据类型不同。同一数据放在不同位置也是不一样的数据类型。怎么表示string?每个位置代表一个单词。
2024-07-28 16:15:46 168
原创 Pytorch-手写数字识别
以识别手写数字为例,手写数字从0-9preW3∗W2W1Xb1b2b3上述式子是一个很简单的线性模型,但是线性模型并不能应用到复杂任务上去,我们在每一次线性的后边加入一个激活函数,增强模型的非线性表达能力。H1reluXW1b1H2reluH1W2b2H3reluH2W3b3pre输出是one-hot向量。
2024-07-27 15:05:46 386
原创 目标检测损失计算部分(YOLO)
标准化坐标的增益张量(gain tensor)用于将归一化的目标转换为特定特征层的网格尺度,以便进行匹配和计算。在目标检测模型中,输入图像被划分为多个网格,每个网格负责预测多个锚框。锚框的尺寸在不同特征层上有所不同,以便检测不同尺度的目标。1、增益张量将归一化的目标坐标转换为特征图的网格尺度增强张量的初始值是一个全1的张量,长度为 7,目标信息包括图像索引、类别、x、y,w,h和锚框索引2、更新增益张量以匹配当前特征图的尺度3、将归一化的目标乘以增益张量,以转换为特征图的尺度。
2024-07-26 20:06:09 334
原创 pytorch-梯度下降
在多变量中,梯度方向表示函数值增加最快的方向。1、学习率过大会使算法难以收敛,且波动很大。2、学习率过低可能导致算法收敛过慢。在单变量中,梯度就等于导数。
2024-07-25 20:24:56 1195
原创 R-YOLO
提出了一个框架,名为R-YOLO,不需要在恶劣天气下进行注释。考虑到正常天气图像和不利天气图像之间的分布差距,我们的框架由图像翻译网络(QTNet)和特征校准网络(FCNet)组成,用于逐步使正常天气域适应不利天气域。具体来说,我们使用简单而有效的QTNet来生成图像,这些图像继承了正常天气域中的注释,并对两个域之间的间隙进行插值。然后,在FCNet中,我们提出了两种基于对抗性学习的特征校准模块,以局部到全局的方式有效地对其两个领域中的特征表示。
2024-01-29 16:54:18 1085
原创 Domain Adaptive Object Detection for Autonomous Driving under Foggy Weather
大多数自动驾驶的物体检测方法通常假设训练和测试数据之间的特征分布一致,但当天气差异显著时,情况并非总是如此。在晴朗天气下训练的目标检测模型在大雾天气下可能由于域间隙而不够有效。本文提出了一种新的雾天自动驾驶领域自适应目标检测框架。我们的方法利用图像级别和对象级别的自适应来减少图像风格和对象外观的领域差异。我们的方法利用图像级别和对象级别的自适应来减少图像风格和对象外观的领域差异。为了进一步增强模型在具有挑战性的样本下的能力,我们还提出了一个新的对抗性梯度反转层,用于对困难样本进行对抗性挖掘和领域自适应。
2024-01-28 19:20:27 1313
原创 Image Enhancement Guided Object Detection in Visually Degraded Scenes
目标检测准确率在视觉退化场景下降严重。一个普遍的解决方法就是对退化图像进行增强然后再执行目标检测。但是,这是一种次优的方案,而且未必对目标检测的准确率有提升,因为图像增强和目标检测两个任务的不同。为了解决这个问题,我们提出了一种图像增强引导目标检测的方法,以端到端的方式定义了一个检测网络和一个额外的增强分支。具体来说,增强分支和检测分支以并行的方式组织,并设计了一个特征引导模块来连接这两个分支,这优化了检测分支中输入图像的浅层特征,使其与增强图像的浅部特征尽可能一致。
2024-01-27 18:12:04 1258 1
原创 MSFFA-YOLO Network: Multiclass Object Detection for Traffic Investigations in Foggy Weather
这篇文章提出了一种多类别目标检测方法,multiscale feature fusion attention-YOLO(MSFFA-YOLO)网络,可以进行训练并且同时完成三项任务:可见度提升,目标分类,目标定位。这个网络使用yolov7作为子网络,负责学习定位和分类。在恢复网络中,MSFFA结构用来提升可见性。
2024-01-24 21:05:20 987
原创 MULTISCALE DOMAIN ADAPTIVE YOLO FOR CROSS-DOMAIN OBJECT DETECTION
领域自适应在解决许多应用遇到的领域转换问题方面发挥了重要的作用。这个问题是由于训练用的数据和实际测试的真实场景数据的分布差异造成的。在本文中,我们介绍了一种新的多尺度域自适应YOLO(MS-DAYOLO)框架,该框架在最近引入的YOLOv4对象检测器的不同尺度上使用多个域自适应路径和相应的域分类器来生成域不变特征。我们的实验表明,当使用所提出的MSDAYOLO训练YOLOv4时,以及当在代表自动驾驶应用的挑战性天气条件的目标数据上进行测试时,物体检测性能显著提高。
2024-01-21 18:31:54 1089 3
原创 【无标题】
训练有雾的图片是十分有必要的。第一组为训练正常图像检测出来的结果,第二组为训练有雾图像检测出来的结果,第一组啥也检测不出。训练有雾的图片虽然在有雾图片上检测性能会提升,但是在正常图片上的检测效果却会下降。因此如何阻止检测器在正常图像上的检测效果下降是一个有待解决的问题。
2024-01-21 16:38:53 341
原创 Fog-Aware Adaptive YOLO for Object Detection in Adverse Weather
提出了一种雾自适应YOLO算法。使用一种雾评估算法将图片分为有雾和无雾图片,随后将标准的YOLO应用于正常图片,自适应YOLO应用于有雾图片。
2024-01-19 17:01:07 434
原创 Channel-separation-based Network for Object Detection under Foggy Conditions
现存的一些方法尝试恢复高质量图像,但这会增加网络复杂性并且丢失图像的潜在信息。在这项研究中,一个基于通道分离的检测网络被提出用来保存潜在信息。特别地,雾过滤器用于在图像处理期间执行修剪,以保持图像的潜在信息。通过把深层特征提取替换为一个即插即用模块(MBConvBlock)和使用一个新的CSPBottleNeck和CrossConv联合,我们的模型克服了卷积神经网络固有的缺点,并具有全局感受野和专注于更关键的特征。这个模型使用端到端的方法和混合数据进行训练,因此课题提高模型网络的泛化能力。
2024-01-17 16:31:50 1129
原创 Detection-friendly dehazing: object detection in real-world hazy scenes
提出了一种联合架构BAD-Net,将去雾模块和检测模块连接成一个端到端的方法。另外,设计了了两个分支结构,用注意力融合模块来充分结合有雾和去雾特征,这减少了在检测模块不好的影响,当去雾模块表现不好时。此外,引入了一种自监督雾度鲁棒损失,使检测模块能够处理不同程度的雾度。更重要的是,提出了一种区间迭代数据细化训练策略,用于指导弱监督下的去雾模块学习。在RTTS和VOC数据集上进行实验。
2024-01-15 13:56:55 1176 1
原创 DSNet: Joint Semantic Learning for Object Detection in Inclement Weather Conditions
DSNet可以端到端的解决三个任务:可见性提升,目标分类,目标定位。DSNet包含两个子网络:检测子网和恢复子网。恢复子网通过与检测子网共享特征提取层并采用特征恢复模块来增强可见性。
2024-01-14 09:55:51 1105
原创 TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone-captu
针对以下问题:1、无人机在不同的高度航行,物体的尺度变化很大,这给网络的优化带来了负担2、高速低空飞行给密集的物体带来了运动模糊,这给物体识别带来了巨大的挑战提出了TPH-YOLOv5:1、将原来的检测头换成了TPH(Transformer Prediction Heads)来探索具有自注意力机制的预测潜力2、添加了CBAM,以在对象密集的场景中找到注意力区域3、此外,还使用了数据增强、多尺度测试、多模型集成和利用额外的分类器。
2024-01-07 13:36:54 574
原创 YOLOv5-Fog: A Multiobjective Visual DetectionAlgorithm for Fog Driving Scenes Based onImproved YOLOv
1、基于改进的yolov5,提供了一个有雾驾驶场景的多目标检测网络。2、利用虚拟场景的数据集和图像的深度信息构建了一个合成雾数据集3、经过结构重新参数化修改的ResNeXt模型作为backbone4、建立了一个FEM(feature enchancement module)来应对有雾图片缺乏特征的问题,并且用注意力模块关注更多有用的特征。5、实验表明所提出的多目标检测网络在速度和准确率上优于原始yolov5。
2024-01-04 22:00:12 630 2
原创 ACCV:DENet: Detection-driven Enhancement Network for Object Detection under Adverse Weather Conditio
解决的问题:恶劣环境下的目标检测提出了一个极其轻量级的增强模型(45k个参数),称为DENet。为了有效和高效地增强,在DENet中应用了基于Laplacian-pyramid的结构。GEM为增强LF分量设计和开发了DEM(细节增强模块)自适应增强细化HF分量通过级联DENet和yolov3,获得了一种称为DE-YOLO的端到端检测框架,只使用正常的检测损失,不需要高质量的GT图像与不同类型的SOTA方法相比,所提出的方法提供最可靠的检测结果,同时所需的运行时间非常有限。
2023-12-30 16:55:38 1146 1
原创 算法设计与分析
本质上就是从i个物品中选择一定数量的物品在一定空间限制的前提下,求这些物品的最大总价值,我们可以定义一个二维数组dp[i][j],这个数组的值就表示从前i件物品进行选择,在不超过容量j的前提下所满足最大的物品总价值。(注:此处的第i件物品对应与数组下标i。
2023-11-24 16:48:15 149
原创 Opencv-图像插值与LUT查找表
opencv中resize()函数的实现原理0就是通过插值算法,如果不对应用某种算法进行设置,则默认采用双线性插值算法。双线性插值(Bilinear Interpolation):双线性插值是用原图像中4(22)个点计算新图像中1个点,效果略逊于双三次插值,速度比双三次插值快,属于一种平衡美,在很多框架中属于默认算法。双三次插值(Bicubic interpolation):双三次插值是用原图像中16(44)个点计算新图像中1个点,效果比较好,但是计算代价过大。LUT查找表实际上就是一种映射规则。
2023-10-24 22:23:00 966
原创 C++数组
从内向外理解,Parray的含义:首先是圆括号括起来的部分,*Parray意味着Parray是个指针,接下来观察右边,可知道Parray是个指向大小为10的数组的指针,最后观察左边,指导数组中的元素是int类型;arry是个引用,观察右边可知arry引用的对象是一个大小为10的数组,最后观察左边指导,数组的元素类型是指向int的指针。C++新标准引入了两个名为begin和end的函数,这两个函数与容器中的两个同名成员功能类似。严格来说,C++语言中没有多维数组,通常所说的多维数组其实是数组的数组。
2023-10-21 16:32:44 134
原创 Yolov7代码解析
增加了 Aux Head,Aux head也参与损失函数的计算并反向传播参与协助前面的层更新参数。多了一条有两个卷积的支路,扩大了深度,输出的通道数比原来多1.25倍,扩大了宽度。Conv = Conv2d+BatchNorm2d+siLL激活函数。
2023-10-19 09:42:46 704
原创 Opencv——颜色模型+通道分离与合并
VideoCapture允许一开始定义一个空的对象VideoCapture video使用方法:video.get(CAP_PROP_FPS) 返回值即为视频的帧数filename:保存视频的地址和文件名,包含视频格式fourcc:压缩帧的4字符编码器代码,详细参数在表2-7给出fps:保存视频的帧率,即视频中每秒图像的张数isColor:保存视频是否为彩色视频图像颜色空间介绍RGB颜色模型图像数据类型间的相互转换HSV颜色模型彩色图像可以转换为灰度图像
2023-10-15 22:29:13 882
原创 VS2022配置Opencv
由于新版本VS属性管理器没有Microsoft.cpp.x64.user文件,可以选择直接在Debug x64进行配置。配置包含目录和库目录。
2023-10-07 19:57:16 221
原创 C++的对像生存期
堆的分配非常自由,它是由程序员自己去分配的,比如程序员考虑到某些情况需要更多的内存,它就可以在堆上面申请一个足够大的内存。除此之外,内存的分配非常自由,它并不要求是连续的内存,只要有空间,都可以被拿来分配。例如:经常声明的局部变量,一些基本数据类型,如int ,double, char 等,这些数据在声明的时候,内存的大小已经确定,它们会被存放到栈中。使用栈的好处是,不需要管理内存的释放。以上代码是错误的,因为创建的是一个基于栈的变量,而函数一旦结束,就超出了作用域,栈上的变量会自动销毁。
2023-10-04 16:16:05 121
原创 视觉Transformer在低级视觉领域的研究综述
在图像处理过程中,ViT首先将输入的图片分成块,对其进行线性的编码映射后排列成一堆的向量作为编码器的输入,在分类任务中会在这个一维向量加入了一个可学习的嵌入向量用作分类的类别预测结果表示,最后通过一个全连接层输出结果。Transfomer模块上是基于编码器和解码器架构,而编码器和解码器是由多个层构成。编码器负责提取特征,解码器负责将提取到的特征转化为结果。编码器由注意力层和全连接层构成。Transfomer的输入是一个序列,要能够对图像进行处理则要使得二维的图像变成一个一维的序列。
2023-09-20 16:49:34 214
原创 C++ Const
常量表达式是指值不会改变并且在编译过程中就能得到计算结果的表达式。底层const表示指针所指的对象是一个常量。顶层const表示指针本身是个常量。
2023-09-18 20:38:13 126
原创 数据库系统概论
1、模式数据库中全体数据的逻辑结构和特征的描述,它仅仅涉及型的描述,不涉及具体的值。模式/内模式映像:当数据库的存储结构改变时,有数据库管理员对模式/内模式作相应改变,可以使模式保持不变,从而应用程序也不用改变。严格地讲:数据库是长期储存在计算机内、有组织的、可共享的大量数据的集合。3、物理模型:是对数据最底层的抽象,它描述在系统内部的表示方法和存取方法,或在磁盘上的存储方法,是面向计算机系统的。模式:也称为逻辑模式,是数据库中全体数据的逻辑结构和特征的描述,是所有用户的公共数据视图。
2023-03-31 21:47:53 588
原创 计算机网络
① 边缘部分:由所有连接在互联网上的主机组成。这部分是用户直接使用的,用来进行通信和资源共享②核心部分:由大量网络和连接这些网络的路由器组成。这部分是为边缘部分提供服务的计算机之间的通信:主机A的某个进程和主机B上的另一个进程进行通信。
2023-03-26 23:09:09 830
原创 指令的流水线计算
1、流水线的吞吐率是指在单位时间内流水线所完成的任务数量或输出的结果数量。计算流水线吞吐率的公式如下。如上例题1 的吞吐率为 = 10/45。1、流水线周期为执行时间最长的一段。答案: (1)(3+2+4)
2023-03-17 23:25:48 1034
原创 软考-校验码
在有效信息位中加入几个校验位形成海明码,使码距比较均匀地拉大,并把海明码的每个二进制位分配到几个奇偶校验组中。当某一位出错后,就会引起有关的几个校验位的值发生变化,这不但可以发现错误,还能指出错误的位置,为自动纠错提供了依据。把接受到的CRC码用约定的生成多项式G(X)去除(模二除法,如果正确,则余数为0;例如:用4位二进制表示16种状态,则有16个不同的码字,此时码距为1.如0000与0001。奇校验:整个校验码(有效信息位和校验位)中“1”的个数为奇数。奇偶校验,可检查1位(奇数位)的错误,不可纠错。
2023-03-16 22:00:40 177
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人