使用YOLOV7训练BDD100K数据集（数据格式转化+训练全流程）

最新推荐文章于 2024-12-08 10:58:27 发布

NukaCC

最新推荐文章于 2024-12-08 10:58:27 发布

阅读量8.7k

点赞数 16

分类专栏：数据集文章标签：人工智能计算机视觉 python 深度学习

本文链接：https://blog.csdn.net/weixin_52514564/article/details/129891785

版权

数据集专栏收录该内容

2 篇文章

订阅专栏

1. 前言

1.1 BDD100K数据集详细介绍（此节可跳过）

1. 前言

1.1 BDD100K数据集详细介绍（此节可跳过）

BDD100K 数据集，是加州大学伯克利分校 AI 实验室（BAIR）于 2018 年发布的，其包含的 10 万个高清视频序列，时长超过 1100 小时。其中，每个视频大约 40 秒长、720p、30 fps，还附有手机记录的 GPS/IMU 信息和时间戳，以显示大概的驾驶轨迹。BAIR 还对每个视频的第 10 秒对关键帧进行采样，得到 10 万张图片（图片尺寸：1280*720 ），并进行标注。这些图片还被标记了：图像标记、道路对象边界框、可驾驶区域、车道标记线和全帧实例分割。这些注释有助于理解不同场景中数据和对象统计的多样性。数据集中的视频是从美国各地收集的，涵盖不同时间、不同天气条件（包括晴天、阴天和雨天，以及白天和晚上的不同时间）和驾驶场景。收集数据集的地理位置分布在纽约、伯克利、旧金山等地。数据集中，道路目标检测是为公共汽车、交通灯、交通标志、人、自行车、卡车、摩托车、汽车、火车和乘车人等 100000 张图片上标注 2D 边界框；实例分割被用于探索具有像素级和丰富实例级注释，相关图像超过 10000 张；引擎区域是从 10 万张图片中学习复杂的可驾驶决策；车道标记是在 10 万张行车指南图片上的多种车道标注。车道标记类图片中，标注了实线、虚线、双线、单线等。该数据集由相关论文有《BDD100K: A Diverse Driving Video Database with Scalable Annotation Tooling》，该项目由伯克利 DeepDrive 产业联盟组织和赞助，该联盟研究计算机视觉和机器学习在汽车应用上的最新技术。

1.2 BDD100K数据集简要介绍

这是一个经典的驾驶场景数据集，由于使用YOLOV7训练目标检测，因此我们只用到BDD100K数据其中的一小部分，简而言之就是7万张训练集图片和3万张验证集图片，此外BDD100K还有测试集，但是测试集没有标注数据。如果下载的数据并没有达到以上数量，要么就是下载错了，要么就是没有完全解压出来。

1.3 下载必要文件

BDD100K数据集下载地址（百度网盘下载比较快）：

BDD100K数据集高速下载地址（百度网盘） – 源码巴士https://code84.com/820142.html

yolov7项目地址：

GitHub - WongKinYiu/yolov7: Implementation of paper - YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectorshttps://github.com/WongKinYiu/yolov7

2. bdd100k转yolo数据集格式

2.1 为什么要转格式

bdd的标注格式是json格式，yolo格式是txt的，因此要转化。整体转化过程为bdd100k（json文件）---》voc格式（xml文件）---》yolo格式（txt文件）。

2.2 具体步骤

2.2.1 解压文件

下载完成BDD100K数据后，有如下这些压缩包：

解压如下圈出来的两个：

2.2.2 BDD100K转VOC格式

需要先新建val_xml文件夹，代码如下：

import os
import json
import sys
from xml.etree import ElementTree
from xml.etree.ElementTree import Element, SubElement
from lxml import etree
from xml.dom.minidom import parseString

#种类有'car', 'bus', 'person', 'bike', 'truck', 'motor', 'train', 'rider', 'traffic sign', 'traffic light'，可以自己定义序号
categorys = ['car', 'bus', 'person', 'bike', 'truck', 'motor', 'train', 'rider', 'traffic sign', 'traffic light']

def parseJson(jsonFile):
    '''
      params:
        jsonFile -- BDD00K数据集的一个json标签文件
      return:
        返回一个列表的列表，存储了一个json文件里面的方框坐标及其所属的类，
        形如：[[325, 342, 376, 384, 'car'], [245, 333, 336, 389, 'car']]
    '''
    objs = []
    obj = []
    f = open(jsonFile)
    info = json.load(f)
    objects = info['frames'][0]['objects']
    for i in objects:
        if (i['category'] in categorys):
            obj.append(int(i['box2d']['x1']))
            obj.append(int(i['box2d']['y1']))
            obj.append(int(i['box2d']['x2']))
            obj.append(int(i['box2d']['y2']))
            obj.append(i['category'])
            objs.append(obj)
            obj = []
    
    return objs


class PascalVocWriter:

    def __init__(self, foldername, filename, imgSize, databaseSrc='Unknown', localImgPath=None):
        '''
        params:
          foldername -- 要存储的xml文件的父目录
          filename -- xml文件的文件名
          imgSize -- 图片的尺寸
          databaseSrc -- 数据库名，这里不需要，默认为Unknown
          localImaPath -- xml文件里面的<path></path>标签的内容
      '''
        self.foldername = foldername
        self.filename = filename
        self.databaseSrc = databaseSrc
        self.imgSize = imgSize
        self.boxlist = []
        self.localImgPath = localImgPath

    def prettify(self, elem):
        """
        params:
          elem -- xml的根标签，以<annotation>开始
        return:
          返回一个美观输出的xml（用到minidom），本质是一个str
        """
        xml = ElementTree.tostring(elem)
        dom = parseString(xml)
        
        prettifyResult = dom.toprettyxml('    ')
        return prettifyResult

    def genXML(self):
        """
        return:
          生成一个VOC格式的xml，返回一个xml的根标签，以<annotation>开始
        """
        
        if self.filename is None or \
                self.foldername is None or \
                self.imgSize is None or \
                len(self.boxlist) <= 0:
            return None

        top = Element('annotation')  
        folder = SubElement(top, 'folder')
        folder.text = self.foldername  

        filename = SubElement(top, 'filename')  
        filename.text = self.filename  

        localImgPath = SubElement(top, 'path')  
        localImgPath.text = self.localImgPath  

        source = SubElement(top, 'source')  
        database = SubElement(source, 'database')  
        database.text = self.databaseSrc  

        size_part = SubElement(top, 'size')  
        width = SubElement(size_part, 'width')  
        height = SubElement(size_part, 'height')  
        depth = SubElement(size_part, 'depth')  
        width.text = str(self.imgSize[1])  
        height.text = str(self.imgSize[0])  
        if len(self.imgSize) == 3:  
            depth.text = str(self.imgSize[2])
        else:
            depth.text = '1'

        segmented = SubElement(top, 'segmented')
        segmented.text = '0'
        return top

    def addBndBox(self, xmin, ymin, xmax, ymax, name):
        '''
        将检测对象框坐标及其对象类别作为一个字典加入到self.boxlist中
        params:
          xmin -- 检测框的左上角的x坐标
          ymin -- 检测框的左上角的y坐标
          xmax -- 检测框的右下角的x坐标
          ymax -- 检测框的右下角的y坐标
          name -- 检测框内的对象类别名
        '''
        bndbox = {'xmin': xmin, 'ymin': ymin, 'xmax': xmax, 'ymax': ymax}
        bndbox['name'] = name
        self.boxlist.append(bndbox)

    def appendObjects(self, top):
        '''
        在xml文件中加入检测框的坐标及其对象类别名
        params:
          top -- xml的根标签，以<annotation>开始
        '''
        for each_object in self.boxlist:
            object_item = SubElement(top, 'object')
            name = SubElement(object_item, 'name')
            name.text = str(each_object['name'])
            pose = SubElement(object_item, 'pose')
            pose.text = "Unspecified"
            truncated = SubElement(object_item, 'truncated')
            truncated.text = "0"
            difficult = SubElement(object_item, 'Difficult')
            difficult.text = "0"
            bndbox = SubElement(object_item, 'bndbox')
            xmin = SubElement(bndbox, 'xmin')
            xmin.text = str(each_object['xmin'])
            ymin = SubElement(bndbox, 'ymin')
            ymin.text = str(each_object['ymin'])
            xmax = SubElement(bndbox, 'xmax')
            xmax.text = str(each_object['xmax'])
            ymax = SubElement(bndbox, 'ymax')
            ymax.text = str(each_object['ymax'])

    def save(self, targetFile=None):
        '''
        以美观输出的xml格式来保存xml文件
        params:
          targetFile -- 存储的xml文件名，不包括.xml部分
        '''
        root = self.genXML()
        self.appendObjects(root)
        out_file = None
        subdir = self.foldername.split('/')[-1]
        if not os.path.isdir(subdir):
            os.mkdir(subdir)
        if targetFile is None:
            with open(self.foldername + '/' + self.filename + '.xml', 'w') as out_file:
                prettifyResult = self.prettify(root)
                out_file.write(prettifyResult)
                out_file.close()
        else:
            with open(targetFile, 'w') as out_file:
                prettifyResult = self.prettify(root)
                out_file.write(prettifyResult)
                out_file.close()

class PascalVocReader:
    def __init__(self, filepath):
        self.shapes = []
        self.filepath = filepath
        self.parseXML()
    def getShapes(self):
        return self.shapes
    def addShape(self, label, bndbox):
        xmin = int(bndbox.find('xmin').text)
        ymin = int(bndbox.find('ymin').text)
        xmax = int(bndbox.find('xmax').text)
        ymax = int(bndbox.find('ymax').text)
        points = [(xmin, ymin), (xmax, ymin), (xmax, ymax), (xmin, ymax)]
        self.shapes.append((label, points, None, None))
    def parseXML(self):
        assert self.filepath.endswith('.xml'), "Unsupport file format"
        parser = etree.XMLParser(encoding='utf-8')
        xmltree = ElementTree.parse(self.filepath, parser=parser).getroot()
        filename = xmltree.find('filename').text
        for object_iter in xmltree.findall('object'):
            bndbox = object_iter.find("bndbox")
            label = object_iter.find('name').text
            self.addShape(label, bndbox)
        return True


def main(srcDir, dstDir):
    i = 1
    for dirpath, dirnames, filenames in os.walk(srcDir):
        for filepath in filenames:
            fileName = os.path.join(dirpath, filepath)
            print(fileName)
            print("processing: {}, {}".format(i, fileName))
            i = i + 1
            xmlFileName = filepath[:-5]  
            
            objs = parseJson(str(fileName))
            
            if len(objs):
                tmp = PascalVocWriter(dstDir, xmlFileName, (720, 1280, 3), fileName)
                for obj in objs:
                    tmp.addBndBox(obj[0], obj[1], obj[2], obj[3], obj[4])
                tmp.save()
            else:
                print(fileName)


if __name__ == '__main__':
    srcDir = './bdd100k/labels/100k/val'  
    dstDir = './bdd100k/labels/100k/val_xml'
    main(srcDir, dstDir)

2.2.3 VOC转txt格式

需要先新建train_txt文件夹，代码如下：

import glob
import xml.etree.ElementTree as ET
import os

#种类有'car', 'bus', 'person', 'bike', 'truck', 'motor', 'train', 'rider', 'traffic sign', 'traffic light'，可以自己定义序号
class_names = ['car', 'bus', 'person', 'bike', 'truck', 'motor', 'train', 'rider', 'traffic sign', 'traffic light']



def single_xml_to_txt(xml_file, dstDir):
    tree = ET.parse(xml_file)
    root = tree.getroot()
    
    txt_file = dstDir + os.path.basename(xml_file).split('.')[0] + ".txt"
    with open(txt_file, 'w') as txt_file:
        for member in root.findall('object'):
            picture_width = int(root.find('size')[0].text)
            picture_height = int(root.find('size')[1].text)
            class_name = member[0].text
            class_num = class_names.index(class_name)
            box_x_min = int(member[4][0].text)  
            box_y_min = int(member[4][1].text)  
            box_x_max = int(member[4][2].text)  
            box_y_max = int(member[4][3].text)  
            x_center = (box_x_min + box_x_max) / (2 * picture_width)
            y_center = (box_y_min + box_y_max) / (2 * picture_height)
            width = (box_x_max - box_x_min) / (2 * picture_width)
            height = (box_y_max - box_y_min) / (2 * picture_height)
            print(class_num, x_center, y_center, width, height)
            txt_file.write(str(class_num) + ' ' + str(x_center) + ' ' + str(y_center) + ' ' + str(width) + ' ' + str(
                height) + '\n')


def dir_xml_to_txt(path, dstDir):
    i = 1
    for xml_file in glob.glob(path + '*.xml'):
        single_xml_to_txt(xml_file, dstDir)
        i += 1


def main(path, dstDir):
    dir_xml_to_txt(path, dstDir)

if __name__ == '__main__':
    srcDir = './bdd100k/labels/100k/train_xml/'
    dstDir = './bdd100k/labels/100k/train_txt/'
    main(srcDir, dstDir)

3. 整理数据集结构

3.1 最终需要转成的格式

最后把数据集整理成如下的格式

3.2 每个文件内部具体内容

images文件夹下面有：

val文件夹下面有：

4. 配置运行参数，开始训练

修改bdd100k.yaml文件后，终端执行：

python train.py --workers 8 --device 0 --batch-size 32 --data data/bdd100k.yaml --img 640 640 --cfg cfg/training/yolov7.yaml --weights '' --name yolov7 --hyp data/hyp.scratch.p5.yaml

成功开始训练