由于平台审核问题,请移步,后期将脱离此平台
深度学习-UNet语义分割二分类与多分类的对比 - 知乎摘要:前面我们一起聊了下图片的多分类,简单应用包括汉字识别、目标识别、目标检测等等,今天我们来看下图像语义分割任务是做什么的,同样的,今天还是分享构建的思路以及遇到的一些问题。 语义分割是计算机视觉…https://zhuanlan.zhihu.com/p/637600789
摘要:前面我们一起聊了下图片的多分类,简单应用包括汉字识别、目标识别、目标检测等等,今天我们来看下图像语义分割任务是做什么的,同样的,今天还是分享构建的思路以及遇到的一些问题。
语义分割是计算机视觉领域中的一项任务,旨在将图像中的每个像素分配到其对应的语义类别中。与传统的图像分割不同,语义分割不仅分割出图像中的不同区域,还能够根据物体类别进行区分,从而实现对图像的更深入理解和表述。语义分割技术常用于自动驾驶、图像搜索、人脸识别等领域,具有广泛的应用前景。
举个例子
在这张图片中,包含了许多信息,很多定义,有飞机、机箱道路、天空等等一系列的事物,那么这些定义的事物就是这些图片的语义,那么,今天我们就需要把图片中的这些定义划分出对应的区域出来。那么首先我们需要标记这里的飞机,像这样做。
在这里,我们只需要将飞机标记出来,其他区域位置为背景,背景色为黑色,飞机为红色,这样的话,就将原图的色彩表示出来了。下次,网络就能够学习到哪个是飞机?哪个不是飞机了。
如果要实现这样的功能,今天给大家分享一个网络结构,U-Net网络结构它是一种用于语义分割的深度神经网络模型,最初由德国图像实验室(Image Processing Lab,IPL)的研究人员发明。U-Net的基本结构是一个U形网络,其中包含编码器(downsampling path)和解码器(upsampling path)两部分,具有对称结构。编码器用于提取输入图像的特征信息,通过多个卷积层和池化层将输入图像逐步缩小,得到一个语义表达。解码器则将此语义表达映射回原始图像大小,通过多个反卷积和上采样层恢复分辨率,并将特征与对应的编码器层的特征进行融合,从而还原输出目标的位置、形状和语义信息。此外,U-Net在训练时采用了数据增强、损失函数以及可调节参数等方法进行优化,提高了模型的鲁棒性和泛化能力,成为了语义分割领域中的经典模型之一。
咋一看,确实是一个U型结构,按照中心线划分,左边是下采样,右边是上采样,这里我就不过多介绍这个网络结构,我们来看下它的实现。
..........