目录
1. 简介
CNN是一个多层的网络,通过卷积核对输入图像进行层层变换,学习分层特征表示,将输入映射成输出(标签或预测值)
U-net包括收缩路径和与之对称的扩张路径,构成U型识别网络,网络中对称的卷积层和反卷积层存在跳跃连接以传递信息
图像语义分割本质上是像素级的分类任务
使用预训练的模型,本质上是利用了从相关任务上学习到的先验知识来服务待求解的问题
语义分割的问题的难点是如何将像素级的预测和上下文的推断结合起来
本文采用的图像分割算法基于FCN模型。从发展历程上看,深度卷积神经网络先是在全图分类任务上取得成功,进而用于区域检测,目标定位等任务,需求也逐渐从整体预测到稠密预测变化。从整体到局部,很自然地,研究者的注意力又从局部移到像素级的识别上,提出了FCN语义分割算法。从应用上看,CNN用于图像级/区域级的分类,侧重总体的语义,图像上小目标通常认为是噪声;FCN用于像素级的语义标注,对小目标等细节变化敏感。
主要创新点体现在根据多任务学习方法,通过提升分类模型CNN的性能间接地改善了分割模型FCN的性能
2. 图像识别相关技术
特征的设计依据不同对象的特征,视觉特征设计主要是计算机视觉领域的研究内容。分类器设计则是机器学习领域的研究内容。而卷积神经网络方法则融合了特征提取和分类器设计,是一个端到端的识别系统。
2.1 视觉模式识别
一个模式系统通常包含特征提取和分类器设计两大部分。提高系统识别率也是从上述两个方面进行。优秀的特征描述子能从不同的输入上提取有效信息,即具有不变形,如旋转不变性、平移不变性等。常用的特征描述方法可以分为纹理特征(如LBP、SIFT、SUFR),形状特征(如HOG)及颜色特征(如颜色直方图)等。优秀的分类器具有良好的分类性能和泛化性能。常见的分类器有softmax、SVM、AdaBoost等。
一个标准的CNN以多层卷积与池化为特征提取器,以softmax为分类器,可以认为是一个端到端的识别系统。
2.1.1 特征描述与不变性
特征提取器从图像上提取的特征也叫做特征描述子。特征不变性指的是从不同的图像上提取的描述子是一致的。
CNN使用softmax分类算法较为简单,分类能力依赖良好的特征表示。CNN的卷积层和全连接层是可训练的,通过softmax的反馈,使用BP算法进行梯度更新,最终训练过的CNN模型的高层特征具有不变性。
CNN中的池化层能保证一定程度的平移和旋转不变性
2.1.2 模型选择与泛化性能
采用了不同结构、不同参数的模型都可以认为是不同的模型,模型选择就是要从中选取较好的模型。较好的