YOLOv7
YOLOv7 是 YOLO 系列的最新进化版本,它在 YOLOv6 的基础上进行了进一步优化,目标是在保持高检测精度的同时,继续提升速度和计算效率。YOLOv7 在网络架构、损失函数和优化技术上进行了多项改进,使得它在计算复杂度和性能之间达到了新的平衡。
相比 YOLOv6 的改进与优势
-
重构的 Head 模块
YOLOv7 重构了检测头(Head),相比 YOLOv6 使用的 YOLOHead 模块,YOLOv7 引入了更加轻量化的架构,并通过深度可分离卷积(Depthwise Separable Convolutions)进一步减少了计算开销,同时保证检测精度。 -
动态标签分配 (Dynamic Label Assignment)
YOLOv7 采用了 动态标签分配(Dynamic Label Assignment) 技术。在 YOLOv6 以及早期的 YOLO 系列模型中,标签分配是基于固定的 IoU 阈值进行的,而 YOLOv7 通过动态调整标签分配策略,能够更有效地匹配目标与预测框,提高检测效果,尤其对小目标的检测性能有所提升。 -
扩展的 FPN/PAFPN 结构
YOLOv7 对 FPN(特征金字塔网络)和 PANet(路径聚合网络)进行了扩展和优化,进一步提升了多尺度特征融合的能力,使得模型在处理不同大小目标时表现更加鲁棒。这使得 YOLOv7 对于复杂场景中的多尺度目标检测有更好的表现。 -
优化的损失函数
YOLOv7 对损失函数进行了改进,使用了 ECIoU(Extended Complete Intersection over Union)损失函数。相比 YOLOv6 使用的 SIoU,ECIoU 更加注重边界框的形状和比例,并且能够处理物体边界框在不同尺度和形状下的误差。 -
Anchor-Free 机制进一步优化
YOLOv7 保留了 YOLOv6 中的 Anchor-Free 机制,并通过改进 anchor-free 头部的设计进一步简化了检测过程,减小了模型复杂性,降低了计算开销。这种改进帮助模型在不依赖锚框的情况下,更加准确地定位目标。 -
RepConv 的改进
YOLOv7 进一步优化了 YOLOv6 中的 RepConv 结构。通过在推理阶段将卷积层进行 re-parameterization,模型能够在保持性能的同时,显著减少推理时的计算量和参数量,提高了推理效率。 -
计算效率与精度的平衡
YOLOv7 通过一系列改进,在复杂度与性能之间找到了更优的平衡点。相比 YOLOv6,YOLOv7 在轻量化设计的同时,保证了对小目标、大目标、多尺度目标的强大检测能力,特别是在实际部署中具备更高的效率。
核心代码展示
以下是 YOLOv7 中的一些关键代码模块展示,包括新的 Head 模块和 ECIoU 损失函数的实现。
import torch
import torch.nn as nn
# 1. 基础卷积模块,YOLOv7 继续使用 Conv、BN 和 SiLU 激活函数
class ConvBlock(nn.Module):
def __init__(self, in_channels, out_channels, kernel_size, stride, padding):
super(ConvBlock, self).__init__()
self.conv = nn.Conv2d(in_channels, out_channels, kernel_size, stride, padding, bias=False)
self.bn = nn.BatchNorm2d(out_channels)
self.activation = nn.SiLU() # 使用 SiLU 激活函数
def forward(self, x):
return self.activation(self.bn(self.conv(x)))
# 2. YOLOv7 新的检测头,采用 Depthwise Separable Convolution
class YOLOv7Head(nn.Module):
def __init__(self, in_channels, num_classes):
super(YOLOv7Head, self).__init__()
self.conv1 = ConvBlock(in_channels, in_channels * 2, 3, 1, 1)
self.conv2 = ConvBlock(in_channels * 2, in_channels, 1, 1, 0) # 1x1 卷积
self.pred = nn.Conv2d(in_channels, 3 * (num_classes + 5), 1, 1, 0) # 预测层
def forward(self, x):
x = self.conv1(x)
x = self.conv2(x)
return self.pred(x)
# 3. ECIoU 损失函数的实现
class ECIoULoss(nn.Module):
def __init__(self):
super(ECIoULoss, self).__init__()
def forward(self, pred_boxes, true_boxes):
# IoU 计算公式
# pred_boxes 和 true_boxes 的形状分别是 [N, 4],N 是样本数量,4 是坐标
pred_x1, pred_y1, pred_x2, pred_y2 = torch.split(pred_boxes, 1, dim=1)
true_x1, true_y1, true_x2, true_y2 = torch.split(true_boxes, 1, dim=1)
# 计算交集区域
inter_x1 = torch.max(pred_x1, true_x1)
inter_y1 = torch.max(pred_y1, true_y1)
inter_x2 = torch.min(pred_x2, true_x2)
inter_y2 = torch.min(pred_y2, true_y2)
inter_area = torch.clamp(inter_x2 - inter_x1, min=0) * torch.clamp(inter_y2 - inter_y1, min=0)
# 计算预测框和真实框的面积
pred_area = (pred_x2 - pred_x1) * (pred_y2 - pred_y1)
true_area = (true_x2 - true_x1) * (true_y2 - true_y1)
# 计算 IoU
union_area = pred_area + true_area - inter_area
iou = inter_area / torch.clamp(union_area, min=1e-6)
# 计算边界框中心点的差距(用于 CIoU)
pred_center_x = (pred_x1 + pred_x2) / 2
pred_center_y = (pred_y1 + pred_y2) / 2
true_center_x = (true_x1 + true_x2) / 2
true_center_y = (true_y1 + true_y2) / 2
center_distance = (pred_center_x - true_center_x)**2 + (pred_center_y - true_center_y)**2
# 计算边界框的对角线距离
enclose_x1 = torch.min(pred_x1, true_x1)
enclose_y1 = torch.min(pred_y1, true_y1)
enclose_x2 = torch.max(pred_x2, true_x2)
enclose_y2 = torch.max(pred_y2, true_y2)
enclose_diagonal = (enclose_x2 - enclose_x1)**2 + (enclose_y2 - enclose_y1)**2
# 计算 CIoU 损失
ciou = iou - center_distance / torch.clamp(enclose_diagonal, min=1e-6)
# 扩展的 IoU 计算 (ECIoU)
# ECIoU 进一步考虑了边界框形状的相似性
pred_w = pred_x2 - pred_x1
pred_h = pred_y2 - pred_y1
true_w = true_x2 - true_x1
true_h = true_y2 - true_y1
aspect_ratio_loss = torch.abs(torch.atan(pred_w / torch.clamp(pred_h, min=1e-6)) - torch.atan(true_w / torch.clamp(true_h, min=1e-6)))
# 计算最终的 ECIoU 损失
ec_iou_loss = 1 - ciou + aspect_ratio_loss
return ec_iou_loss.mean()
# 4. YOLOv7 网络结构,使用 EfficientRep 主干网络和新设计的检测头
class YOLOv7(nn.Module):
def __init__(self, num_classes):
super(YOLOv7, self).__init__()
self.backbone = EfficientRep() # 继承 YOLOv6 的 EfficientRep 主干
self.neck = RepPAN() # 继承 YOLOv6 的 RepPAN 结构
self.head = nn.ModuleList([
YOLOv7Head(128, num_classes), # 不同尺度的 YOLOHead
YOLOv7Head(256, num_classes),
YOLOv7Head(512, num_classes)
])
def forward(self, x):
x1, x2, x3, x4, x5 = self.backbone(x) # 主干提取多尺度特征
features = self.ne
ck(x1, x2, x3, x4, x5) # FPN 和 PAN 进行特征融合
outputs = [self.head[i](feature) for i, feature in enumerate(features)] # 多尺度特征进行预测
return outputs
代码解释
-
YOLOv7Head
YOLOv7 的新 Head 模块采用了 Depthwise Separable Convolution,极大减少了参数量和计算量,同时保持了卷积层的特征提取能力。 -
ECIoU 损失函数
相较于 SIoU,YOLOv7 引入了 ECIoU 损失函数,进一步提升了模型对目标边界框的定位精度,尤其是在边界框形状相似度方面更加敏感,有助于处理复杂场景中的目标检测任务。 -
EfficientRep 和 RepPAN
YOLOv7 继续沿用了 YOLOv6 中的 EfficientRep 主干和 RepPAN 颈部结构,但对多尺度特征的融合方式和损失函数做了进一步优化,增强了模型的鲁棒性和检测精度。
结论
YOLOv7 通过动态标签分配、ECIoU 损失函数、优化的 FPN/PANet 结构以及改进的 Anchor-Free 机制,在性能和速度上都超越了 YOLOv6。特别是在推理速度方面,YOLOv7 依旧保持了较高的效率,同时显著提升了小目标和复杂场景中的检测精度,使其成为在实际应用中非常具备竞争力的目标检测模型。