阅读书籍 《深度学习之PyTorch物体检测实战》
第一篇 物体检测基础知识
计算机视觉领域
- 图像成像:成像是计算机视觉较为底层的技术,深度学习在此发挥的空间更多的是成像后的应用,如修复图像的DCGAN网络,图像风格迁移的CycleGAN,这些任务中GAN有着广阔的发挥空间。此外,在医学成像、卫星成像等领域中,超分辨率也至关重要,例如SRCNN(Super-Resolution CNN)。
- 2.5D空间:我们通常将涉及2D运动或者视差的任务定义为2.5D空间问题,因为其任务跳出来单纯的2D图像,但又缺乏3D空间信息。这里包含的任务有光流的估计、单目的深度估计及双目的深度估计。
- 3D空间:3D空间的任务通常应用于机器人或者自动驾驶领域,将 2D图像检测与3D空间进行结合。这其中,主要任务有相机标定 (Camera Calibration)、视觉里程计(Visual Odometry,VO)及SLAM(Simultaneous Localization and Mapping)等。
- 环境理解:环境的高语义理解是深度学习在计算机视觉中的主战 场,相比传统算法其优势更为明显。主要任务有图像分类 (Classification)、物体检测(Object Detection)、图像分割 (Segmentation)、物体跟踪(Tracking)及关键点检测。其中,图像分 割又可以细分为语义分割(Semantic Segmentation)与实例分割 (Instance Segmentation)。
PyTorch中的数据可视化
- TensorboardX:在PyTorch中,也可以使用Tensorboard_logger进行可视化,但其功 能较少。Tensor-BoardX是专为PyTorch开发的一套数据可视化工具,功 能与TensorBoard相当,支持曲线、图片、文本和计算图等不同形式的 可视化,而且使用简单。
- Visdom:Visdom由Facebook团队开发,是一个非常灵活的可视化工具,可用 于多种数据的创建、组织和共享,支持NumPy、Torch与PyTorch数据, 目的是促进远程数据的可视化,支持科学实验。
网络骨架:Backbone
当前的物体检测算法虽然各不相同,但第一步通常是利用卷积神经网络处理输入图像,生成深层的特征图,