阅读书籍《深度学习之PyTorch物体检测实战》

最新推荐文章于 2024-04-26 00:30:00 发布

Alice01010101

最新推荐文章于 2024-04-26 00:30:00 发布

阅读量1.5k

点赞数

分类专栏：杂记文章标签：深度学习 pytorch 计算机视觉

本文链接：https://blog.csdn.net/weixin_43856821/article/details/126655136

版权

本文介绍了深度学习在计算机视觉领域的应用，包括图像成像、2.5D和3D空间任务。重点讨论了PyTorch中的数据可视化工具如TensorboardX和Visdom。接着，探讨了物体检测的基础，如Backbone网络骨架和卷积层的不同方面，以及激活函数的作用。最后，概述了物体检测的经典框架，包括RCNN、Fast RCNN和Faster RCNN，强调了它们的改进点和工作流程。

摘要由CSDN通过智能技术生成

阅读书籍《深度学习之PyTorch物体检测实战》

第一篇物体检测基础知识

计算机视觉领域

图像成像：成像是计算机视觉较为底层的技术，深度学习在此发挥的空间更多的是成像后的应用，如修复图像的DCGAN网络，图像风格迁移的CycleGAN，这些任务中GAN有着广阔的发挥空间。此外，在医学成像、卫星成像等领域中，超分辨率也至关重要，例如SRCNN（Super-Resolution CNN）。
2.5D空间：我们通常将涉及2D运动或者视差的任务定义为2.5D空间问题，因为其任务跳出来单纯的2D图像，但又缺乏3D空间信息。这里包含的任务有光流的估计、单目的深度估计及双目的深度估计。
3D空间：3D空间的任务通常应用于机器人或者自动驾驶领域，将 2D图像检测与3D空间进行结合。这其中，主要任务有相机标定（Camera Calibration）、视觉里程计（Visual Odometry，VO）及SLAM（Simultaneous Localization and Mapping）等。
环境理解：环境的高语义理解是深度学习在计算机视觉中的主战场，相比传统算法其优势更为明显。主要任务有图像分类（Classification）、物体检测（Object Detection）、图像分割（Segmentation）、物体跟踪（Tracking）及关键点检测。其中，图像分割又可以细分为语义分割（Semantic Segmentation）与实例分割（Instance Segmentation）。

PyTorch中的数据可视化

TensorboardX：在PyTorch中，也可以使用Tensorboard_logger进行可视化，但其功能较少。Tensor-BoardX是专为PyTorch开发的一套数据可视化工具，功能与TensorBoard相当，支持曲线、图片、文本和计算图等不同形式的可视化，而且使用简单。
Visdom：Visdom由Facebook团队开发，是一个非常灵活的可视化工具，可用于多种数据的创建、组织和共享，支持NumPy、Torch与PyTorch数据，目的是促进远程数据的可视化，支持科学实验。