利用语义分割(FCN)区分两种有文字和无文字区域

问题描述: 

图书馆中的书大小不一,为了保证美观,章的位置应该尽量贴到图书的第一页的空白区域

语义分割即是对图像中每一个像素点进行分类,确定每个点的类别(空白或者是文字区域),从而进行区域划分。图像分割就是根据某些规则把图片中的像素分成不同的部分。图像语义分割的任务是预测每个像素点的语义类别;实例分割的任务是预测每个实例物体包含的像素区域。显然该问题中只需要区分文字区域和非文字区域,语义分割可以很好完成这一个问题。

语义分割技术可以识别出每个色块的语义类别,并给每个像素都标注上其对应的标签,从而实现从底层到高层的语义推理过程,最终得到一张具有各个像素语义标注信息的分割图像。

参考论文网站https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdf

论文源代码地址:

https://github.com/shelhamer/fcn.berkeleyvision.org

FCN网络结构:

本文提出一个端到端,像素对像素的全卷积网络用于语义分割任务。 ​​​​​​​

 卷积网络是一种功能强大的可视化模型,可以生成特征的层次结构。作者表明集合网络本身,经过端到端、像素到像素的训练,在语义分割方面超过了最先进的水平。构建了“完全卷积”网络,该网络接收任意大小的输入,并通过有效的推理和学习产生相应大小的输出。作者定义并详细描述了完全卷积网络的空间,解释了它们在空间密集型预测任务中的应用,并与先前的模型建立了联系。然后,作者定义了一个skip体系结构,该体系结构将来自深层、粗糙层的语义信息与来自浅层、精细层的外观信息相结合,以生成准确而详细的分段。(卷积化,上采样,跳跃结构)

CNN的强大之处在于它的多层结构能自动学习特征,并且可以学习到多个层次的特征:浅的卷积层可以学到局部特征,深的卷积层可以学到一些具体的特征。CNN卷积层之后连接的是全连接层;FCN卷积层之后仍连接卷积层,输出的是与输入大小相同的特征图。

FCN 的优势在于: 
- 可以接受任意大小的输入图像(没有全连接层) 
- 更加高效,避免了使用邻域带来的重复计算和空间浪费的问题。

其不足也很突出: 
- 得到的结果还不够精细 。进行8倍上采样虽然比32倍的效果好了很多,但是上采样的结果还是比较模糊和平滑,对图像中的细节不敏感。
-是对各个像素进行分类,没有充分考虑像素与像素之间的关系。

若github不能访问,可以点击mirrors / shelhamer / fcn.berkeleyvision.org · CODE CHINA​​​​​​​

代码结构:​​​​​​​

如果需要图书馆数据集,可以fork me on github,这个位置

https://github.com/Huhaobangbangbang/cv_project.git​​​​​​​​​​​​​​

我的代码目前还有问题,可能是mac问题,未来会上传精简版代码

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值