深度学习抠图——Deep Image Matting

CVPR2017论文:Deep Image Matting 地址:https://arxiv.org/pdf/1703.03872.pdf

1.主要内容:
给出图像 Input 和其三元图 trimap (一个蒙版包含:背景,前景,未知区域) ,利用深度学习计算图像alpha蒙版。该方法相比于其他方法,不仅仅只关注到颜色、位置等低层次信息,也关注到纹理、结构等高层信息。深度模型主要分为两部分:1)编码器-解码器网络结构( encoder-decoder network),该部分输入为原图和三元图,输出为图像alpha蒙版。2)小型优化结构,该部分为小型卷积网络对第一部分输出的图像alpha蒙版进行优化,使其边缘更加精确。

2.主体架构:
在这里插入图片描述
a)编码-解码结构:
输入为三通道图像Input和trimap组合成4通道数据,输出为未经优化的alpha蒙版。编码器部分为14×conv层和5×max pooling层进行下采样,解码器部分进行反向5×up pooling 和6×conv层进行上采样 。
该阶段采用了两个损失函数进行训练:
1)alpha预测损失函数。
在这里插入图片描述
该损失函数计算ground truth蒙版与预测的alpha蒙版之间的各像素欧式距离,其中 ∈ 为十分小的常数(避免求导后,分母为0)。
2)图像生成损失函数
在这里插入图片描述
该损失函数计算 通过ground truth蒙版生成的RGB图像 与 通过预测的alpha蒙版生成的RGB图像 之间的距离。

总损失函数为:
在这里插入图片描述
其中wl为权重,文章取0.5。
b)优化结构:
将输入图像与预测的alpha蒙版融合成4通道作为输入,输出为接近ground truth的蒙版。该部分为4个conv层,前3个conv后接relu函数。由于是进行蒙版优化,故不采用pooling以减少图像尺寸损失。该阶段与编码-解码阶段分开单独训练,损失函数只采用alpha预测损失函数。
该结构不会太多改变图像尺寸,反而会提高蒙版精度和边缘锐度。
在这里插入图片描述
在这里插入图片描述

©️2020 CSDN 皮肤主题: 游动-白 设计师:上身试试 返回首页