YOLO学习中的琐碎知识点

目录

一、导入的库

二、名词介绍

(1)pytorch张量

(2)边界框(bounding box)

三、pycharm操作

(1)参数设置

四、文件认识

五、YOLO如何训练自己的模型


一、导入的库

import torch

这行代码导入PyTorch库。

简单的说:PyTorch库是一个流行的深度学习框架,是一个基于Torch的Python开源机器学习库,用于自然语言处理等应用程序。

        Torch是一个有大量机器学习算法支持的科学计算框架,是一个与Numpy类似的张量(Tensor)操作库。

        对于PyTorch,通过反向求导技术,可以让你零延迟地任意改变神经网络的行为,而且其实现速度快。正是这一灵活性是PyTorch对比TensorFlow的最大优势。

优点:支持GPU;灵活,支持动态神经网络;底层代码易于理解;命令式体验;自定义扩展。

缺点:全面性处于劣势,目前PyTorch还不支持快速傅里叶、沿维翻转张量和检查无穷与非数值张量;针对移动端、嵌入式部署以及高性能服务器端的部署其性能表现有待提升;其次因为这个框架较新,使得他的社区没有那么强大,在文档方面其C库大多数没有文档。

pytorch简介和准备知识 - 夷则july的文章 - 知乎pytorch简介和准备知识 - 知乎

import cv2

这行代码导入OpenCV库,这是一个计算机视觉库,用于图像和视频处理。

import numpy as np

这行代码导入NumPy库,这是一个Python中用于科学计算的库,它提供了数组和矩阵的支持。

import time

这行代码导入time库,这是Python中用于测量时间的基本库之一。

import torchvision

这行代码导入torchvision库,这是PyTorch中专门用于计算机视觉任务的库,提供了一些常用的数据集、模型和预处理函数等。

from torchvision import transforms

这行代码从torchvision库中导入transforms模块,这个模块包含了一些常用的图像预处理函数,例如缩放、裁剪、旋转和标准化等。

二、名词介绍

(1)pytorch张量

        PyTorch张量是PyTorch中的核心数据结构,类似于多维数组。它们可以用来存储和操作数据,支持各种数学运算、线性代数操作和神经网络计算等。

        PyTorch张量类似于NumPy的多维数组,但是提供了额外的功能和优化,使其适用于深度学习任务。与NumPy数组相比,PyTorch张量还具有以下特点:

1. GPU加速:PyTorch张量可以在GPU上进行计算,通过将张量移动到GPU内存中,可以利用GPU的并行计算能力加速运算。

2. 自动求导:PyTorch张量可以自动跟踪和计算梯度。这对于使用梯度下降等优化算法来训练神经网络非常有用。

3. 动态计算图:PyTorch使用动态计算图,在每次前向传播时构建图形,从而允许更灵活的模型定义和控制流程。

4. 张量类型:PyTorch提供了不同类型的张量,如浮点型张量(torch.FloatTensor)、整数型张量(torch.LongTensor)和布尔型张量(torch.BoolTensor),以满足不同的需求。

通过使用PyTorch张量可以方便地进行各种数值计算、创建神经网络模型并进行训练。

(2)边界框(bounding box)

        边界框(bounding box)是指在图像或视频中标记物体位置的矩形框,通常用一组坐标表示。边界框可以用来描述目标物体的位置、大小和形状等信息。

        在计算机视觉领域,边界框是非常常见的一种数据结构,经常被用于目标检测、物体跟踪、人脸识别、姿态估计等任务中。例如,在目标检测中,我们需要从一张图像中找出所有的目标物体,并准确地框定它们的位置和大小。这时就需要使用边界框来描述每个目标物体的位置和尺寸。在物体跟踪中,我们需要不断地跟踪一个特定的物体,这时也需要使用边界框来描述物体的位置和大小。

三、pycharm操作

(1)参数设置

四、文件认识

instance_train.json是COCO数据集中的一个注释文件,其中包含了每张图片中所有物体的位置、类别、是否遮挡等信息。这些信息可以用于物体检测、语义分割等任务的训练和评估。

person_keypoints_train.json是COCO数据集中的另一个注释文件,它专门标注了人体关键点的位置信息,用于训练和评估人体姿态估计和动作识别等任务。

captions_val.json是COCO数据集中用于验证集的图像描述注释文件。它包含了每张图像的唯一标识符和对应的图像描述。每个图像通常会有多个描述,每个描述都是对该图像内容的自然语言描述。

captions:为图像描述的标注文件

instances:为目标检测与实例分割的标注文件

person_keypoints:为人体关键点检测的标注文件

注意:这些文件是自己下载的

推荐:COCO数据集(目标检测任务json文件内容总结) - Fangzh的文章 - 知乎
https://zhuanlan.zhihu.com/p/309549190

COCO数据集(.json)训练格式转换成YOLO格式(.txt)

推荐:http://t.csdnimg.cn/he7yq

五、YOLO如何训练自己的模型

推荐文章:http://t.csdnimg.cn/gT8vB

  • 24
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值