YOLO学习中的琐碎知识点

末时清

已于 2024-02-22 11:37:52 修改

阅读量1.1k

点赞数 24

文章标签： YOLO 学习

于 2024-02-22 11:16:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_73690807/article/details/136226114

版权

本文介绍了PyTorch库的导入及其在深度学习中的核心数据结构——张量，包括其特性、GPU加速和自动求导功能。同时讲解了边界框在计算机视觉中的应用，并详细说明了在PyCharm中进行参数设置以及如何使用COCO数据集训练YOLO模型的过程。

摘要由CSDN通过智能技术生成

目录

一、导入的库

二、名词介绍

（1）pytorch张量

（2）边界框（bounding box）

三、pycharm操作

（1）参数设置

四、文件认识

五、YOLO如何训练自己的模型

一、导入的库

import torch

这行代码导入PyTorch库。

简单的说：PyTorch库是一个流行的深度学习框架，是一个基于Torch的Python开源机器学习库，用于自然语言处理等应用程序。

Torch是一个有大量机器学习算法支持的科学计算框架，是一个与Numpy类似的张量（Tensor）操作库。

对于PyTorch，通过反向求导技术，可以让你零延迟地任意改变神经网络的行为，而且其实现速度快。正是这一灵活性是PyTorch对比TensorFlow的最大优势。

优点：支持GPU；灵活，支持动态神经网络；底层代码易于理解；命令式体验；自定义扩展。

缺点：全面性处于劣势，目前PyTorch还不支持快速傅里叶、沿维翻转张量和检查无穷与非数值张量；针对移动端、嵌入式部署以及高性能服务器端的部署其性能表现有待提升；其次因为这个框架较新，使得他的社区没有那么强大，在文档方面其C库大多数没有文档。

pytorch简介和准备知识 - 夷则july的文章 - 知乎pytorch简介和准备知识 - 知乎

import cv2

这行代码导入OpenCV库，这是一个计算机视觉库，用于图像和视频处理。

import numpy as np

这行代码导入NumPy库，这是一个Python中用于科学计算的库，它提供了数组和矩阵的支持。

import time

这行代码导入time库，这是Python中用于测量时间的基本库之一。

import torchvision

这行代码导入torchvision库，这是PyTorch中专门用于计算机视觉任务的库，提供了一些常用的数据集、模型和预处理函数等。

from torchvision import transforms

这行代码从torchvision库中导入transforms模块，这个模块包含了一些常用的图像预处理函数，例如缩放、裁剪、旋转和标准化等。

二、名词介绍

（1）pytorch张量

PyTorch张量是PyTorch中的核心数据结构，类似于多维数组。它们可以用来存储和操作数据，支持各种数学运算、线性代数操作和神经网络计算等。

PyTorch张量类似于NumPy的多维数组，但是提供了额外的功能和优化，使其适用于深度学习任务。与NumPy数组相比，PyTorch张量还具有以下特点：

1. GPU加速：PyTorch张量可以在GPU上进行计算，通过将张量移动到GPU内存中，可以利用GPU的并行计算能力加速运算。

2. 自动求导：PyTorch张量可以自动跟踪和计算梯度。这对于使用梯度下降等优化算法来训练神经网络非常有用。

3. 动态计算图：PyTorch使用动态计算图，在每次前向传播时构建图形，从而允许更灵活的模型定义和控制流程。

4. 张量类型：PyTorch提供了不同类型的张量，如浮点型张量（torch.FloatTensor）、整数型张量（torch.LongTensor）和布尔型张量（torch.BoolTensor），以满足不同的需求。

通过使用PyTorch张量可以方便地进行各种数值计算、创建神经网络模型并进行训练。

（2）边界框（bounding box）

边界框（bounding box）是指在图像或视频中标记物体位置的矩形框，通常用一组坐标表示。边界框可以用来描述目标物体的位置、大小和形状等信息。

在计算机视觉领域，边界框是非常常见的一种数据结构，经常被用于目标检测、物体跟踪、人脸识别、姿态估计等任务中。例如，在目标检测中，我们需要从一张图像中找出所有的目标物体，并准确地框定它们的位置和大小。这时就需要使用边界框来描述每个目标物体的位置和尺寸。在物体跟踪中，我们需要不断地跟踪一个特定的物体，这时也需要使用边界框来描述物体的位置和大小。

三、pycharm操作

（1）参数设置

四、文件认识

instance_train.json是COCO数据集中的一个注释文件，其中包含了每张图片中所有物体的位置、类别、是否遮挡等信息。这些信息可以用于物体检测、语义分割等任务的训练和评估。

person_keypoints_train.json是COCO数据集中的另一个注释文件，它专门标注了人体关键点的位置信息，用于训练和评估人体姿态估计和动作识别等任务。

captions_val.json是COCO数据集中用于验证集的图像描述注释文件。它包含了每张图像的唯一标识符和对应的图像描述。每个图像通常会有多个描述，每个描述都是对该图像内容的自然语言描述。

captions：为图像描述的标注文件

instances：为目标检测与实例分割的标注文件

person_keypoints：为人体关键点检测的标注文件

注意：这些文件是自己下载的

推荐：COCO数据集（目标检测任务json文件内容总结） - Fangzh的文章 - 知乎
https://zhuanlan.zhihu.com/p/309549190

COCO数据集（.json）训练格式转换成YOLO格式（.txt）

推荐：http://t.csdnimg.cn/he7yq

五、YOLO如何训练自己的模型

推荐文章：http://t.csdnimg.cn/gT8vB

关注

24
点赞
踩
23

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

末时清 CSDN认证博客专家 CSDN认证企业博客

码龄2年

42: 原创

110万+: 周排名

3万+: 总排名

4万+: 访问

: 等级

1130: 积分

419: 粉丝

614: 获赞

22: 评论

465: 收藏

私信

关注

热门文章

分类专栏

最新评论

ros语音识别实现
末时清: git clone https://gitee.com/bingda-robot/robot_voice.git，都在这个项目里面
ros语音识别实现
m0_71937499: 第三部语音转文字roslaunch robot_voice iat_publish.launch 和下面的功能包在那阿，可以分享吗
std::string 中的一些成员函数
CSDN-Ada助手: 恭喜您写了第19篇博客！您对于std::string中的一些成员函数进行了深入探讨，让读者受益匪浅。希望您能继续保持创作的热情，探索更多有趣的主题，或许可以考虑分享一些实用技巧或案例分析，让读者能够更好地应用这些成员函数。期待您的下一篇作品！愿您在写作的道路上不断进步，谦虚谨慎，不忘初心。
单词接龙--C++
CSDN-Ada助手: 恭喜您发布了第20篇博客！持续创作是非常了不起的成就，您的努力和坚持让人钦佩。对于接龙这个有趣的主题，我建议您可以尝试更多的编程语言，比如Java或Python，或者探索其他有趣的主题，拓展您的创作领域。期待看到更多精彩的内容，加油！
蓝桥杯--01串的熵
CSDN-Ada助手: 恭喜用户写下了第17篇博客，题目“蓝桥杯--01串的熵”听起来很有趣！您的坚持和努力让我们看到了您对技术的热爱和专注。希望您能继续保持创作的热情，并尝试拓展其他相关话题，或者深入探讨“01串的熵”的更多细节和应用场景，相信会有更多的读者受益。期待您的下一篇作品！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。