阅读书籍 《深度学习之PyTorch物体检测实战》

本文介绍了深度学习在计算机视觉领域的应用,包括图像成像、2.5D和3D空间任务。重点讨论了PyTorch中的数据可视化工具如TensorboardX和Visdom。接着,探讨了物体检测的基础,如Backbone网络骨架和卷积层的不同方面,以及激活函数的作用。最后,概述了物体检测的经典框架,包括RCNN、Fast RCNN和Faster RCNN,强调了它们的改进点和工作流程。
摘要由CSDN通过智能技术生成

阅读书籍 《深度学习之PyTorch物体检测实战》

第一篇 物体检测基础知识

计算机视觉领域

  • 图像成像:成像是计算机视觉较为底层的技术,深度学习在此发挥的空间更多的是成像后的应用,如修复图像的DCGAN网络,图像风格迁移的CycleGAN,这些任务中GAN有着广阔的发挥空间。此外,在医学成像、卫星成像等领域中,超分辨率也至关重要,例如SRCNN(Super-Resolution CNN)。
  • 2.5D空间:我们通常将涉及2D运动或者视差的任务定义为2.5D空间问题,因为其任务跳出来单纯的2D图像,但又缺乏3D空间信息。这里包含的任务有光流的估计、单目的深度估计及双目的深度估计。
  • 3D空间:3D空间的任务通常应用于机器人或者自动驾驶领域,将 2D图像检测与3D空间进行结合。这其中,主要任务有相机标定 (Camera Calibration)、视觉里程计(Visual Odometry,VO)及SLAM(Simultaneous Localization and Mapping)等。
  • 环境理解:环境的高语义理解是深度学习在计算机视觉中的主战 场,相比传统算法其优势更为明显。主要任务有图像分类 (Classification)、物体检测(Object Detection)、图像分割 (Segmentation)、物体跟踪(Tracking)及关键点检测。其中,图像分 割又可以细分为语义分割(Semantic Segmentation)与实例分割 (Instance Segmentation)。

PyTorch中的数据可视化

  • TensorboardX:在PyTorch中,也可以使用Tensorboard_logger进行可视化,但其功 能较少。Tensor-BoardX是专为PyTorch开发的一套数据可视化工具,功 能与TensorBoard相当,支持曲线、图片、文本和计算图等不同形式的 可视化,而且使用简单。
  • Visdom:Visdom由Facebook团队开发,是一个非常灵活的可视化工具,可用 于多种数据的创建、组织和共享,支持NumPy、Torch与PyTorch数据, 目的是促进远程数据的可视化,支持科学实验。

网络骨架:Backbone

  当前的物体检测算法虽然各不相同,但第一步通常是利用卷积神经网络处理输入图像,生成深层的特征图

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值