利用语义分割（FCN）区分两种有文字和无文字区域

最新推荐文章于 2023-06-12 09:29:53 发布

狗庄欺人太甚

最新推荐文章于 2023-06-12 09:29:53 发布

阅读量702

点赞数 1

分类专栏：计算机视觉文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_48262500/article/details/120632473

版权

语义分割 FCN 全卷积网络图像处理图书馆排版

关键词由CSDN通过智能技术生成

计算机视觉专栏收录该内容

21 篇文章 1 订阅

订阅专栏

问题描述：

图书馆中的书大小不一，为了保证美观，章的位置应该尽量贴到图书的第一页的空白区域

语义分割即是对图像中每一个像素点进行分类，确定每个点的类别（空白或者是文字区域），从而进行区域划分。图像分割就是根据某些规则把图片中的像素分成不同的部分。图像语义分割的任务是预测每个像素点的语义类别；实例分割的任务是预测每个实例物体包含的像素区域。显然该问题中只需要区分文字区域和非文字区域，语义分割可以很好完成这一个问题。

语义分割技术可以识别出每个色块的语义类别，并给每个像素都标注上其对应的标签，从而实现从底层到高层的语义推理过程，最终得到一张具有各个像素语义标注信息的分割图像。

参考论文网站https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdf

论文源代码地址：

https://github.com/shelhamer/fcn.berkeleyvision.org

FCN网络结构：

本文提出一个端到端，像素对像素的全卷积网络用于语义分割任务。

卷积网络是一种功能强大的可视化模型，可以生成特征的层次结构。作者表明集合网络本身，经过端到端、像素到像素的训练，在语义分割方面超过了最先进的水平。构建了“完全卷积”网络，该网络接收任意大小的输入，并通过有效的推理和学习产生相应大小的输出。作者定义并详细描述了完全卷积网络的空间，解释了它们在空间密集型预测任务中的应用，并与先前的模型建立了联系。然后，作者定义了一个skip体系结构，该体系结构将来自深层、粗糙层的语义信息与来自浅层、精细层的外观信息相结合，以生成准确而详细的分段。(卷积化，上采样，跳跃结构)

CNN的强大之处在于它的多层结构能自动学习特征，并且可以学习到多个层次的特征：浅的卷积层可以学到局部特征，深的卷积层可以学到一些具体的特征。CNN卷积层之后连接的是全连接层；FCN卷积层之后仍连接卷积层，输出的是与输入大小相同的特征图。

FCN 的优势在于：
- 可以接受任意大小的输入图像（没有全连接层）
- 更加高效，避免了使用邻域带来的重复计算和空间浪费的问题。

其不足也很突出：
- 得到的结果还不够精细。进行8倍上采样虽然比32倍的效果好了很多，但是上采样的结果还是比较模糊和平滑，对图像中的细节不敏感。
-是对各个像素进行分类，没有充分考虑像素与像素之间的关系。

若github不能访问，可以点击mirrors / shelhamer / fcn.berkeleyvision.org · CODE CHINA

代码结构：