计算机视觉——语义分割入门级综述

最新推荐文章于 2023-03-22 09:26:39 发布

不务正业的程序媛

最新推荐文章于 2023-03-22 09:26:39 发布

阅读量1.5k

点赞数 4

分类专栏：学习笔记文章标签：算法 python 深度学习机器学习计算机视觉

本文链接：https://blog.csdn.net/weixin_43903564/article/details/108718952

版权

本文介绍了计算机视觉中的语义分割，包括定义、评价指标（如IOU、mIOU和PA）、常用数据集（如CityScapes、ADE20K）以及一系列经典算法如FCN、Deeplab系列、Attention机制的应用，并提供了相关论文和博客资源。

摘要由CSDN通过智能技术生成

语义分割是什么？

语义分割是典型的CV问题，输入为原始数据（如平面图像），输出为具有突出显示的感兴趣区域的掩膜。过程是通过查找每一个像素并根据其所属感兴趣的对象分配相应ID。

语义分割评价

IOU=TP/(FP+FN+TP) 即交并比
mIOU=mean(IOU) 即均交并比，在每个类上度量再求平均
PA=TP/ALL 即像素精度
mPA=mean(PA) 即均像素精度，是PA的简单提升，计算每个类内的正确分类像素比例再求平均。

语义分割相关概念可见论文：Zhou, Bolei, Zhao, Hang, Puig, Xavier,etal. Semantic Understanding of Scenes through the ADE20K Dataset[J]. International Journal of Computer Vision, 2016, 127(3):302-321.

语义分割数据集

CityScapes 城市车道
ADE20K 通用
MSCOCO 通用
CityScapes 3D 城市车道
Pascal VOC 通用
Mapillary Vistas 城市街道

经典算法介绍

以下是我整理的在理解各个算法时看到比较好的博客讲解（仅供参考），大部分博客中有论文原地址。

FCN

相关论文：Long J , Shelhamer E , Darrell T . Fully Convolutional Networks for Semantic Segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(4):640-651.
博客讲解：FCN的理解

Pyramid Scene Parsing Network

相关论文：Zhao H , Shi J , Qi X , et al. Pyramid Scene Parsing Network[J]. 2016.
博客讲解：论文笔记：《Pyramid Scene Parsing Network》

Deeplab V1 V2 V3 V3plus

相关论文：Chen L C , Papandreou G , Kokkinos I , et al. DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20