论文
Summary 摘要
我们提出了一种基于深度卷积神经网络(DCNNs)的头发和面部皮肤分割任务的有效分割方法,在三个基准数据集上实现了速度和性能之间的显著权衡。我们利用分割后的人脸获得特定的人脸区域,并进一步利用颜色矩算法提取其颜色特征。 具体来说,对于224×224标准输入,使用我们的高分辨率空间细节信息和低分辨率上下文信息融合网络(HLNet),在CPU环境下,我们在超过16个FPS的Figaro1k数据集上实现了90.73%的像素精度。 在CamVid数据集上的额外实验进一步证实了所提出的模型的普遍性。 我们进一步使用蒙面颜色矩进行肤色等级评估,近似80%的分类精度证明了该方案的可行性。
keyword 关键字
1、Introduction 背景介绍
AR(Augmented Reality)技术因其在各个领域的广泛应用而成为近年来的研究热点,应用最广泛的是美容行业。 其中,自动染发(如图所示1)是美容行业的主要应用之一。 然而,在实际应用场景中存在着巨大的挑战。 首先,由于头发具有非常复杂的形状结构1,所以很难处理准确的边缘信息。 虽然现有的语义分割方法对简单对象具有相对较高的分割性能,但在处理毛发分割任务时,只能得到相对粗糙的掩码。其次,几乎所有的网络都要求GPU具有高的计算能力,这是大多数移动设备所没有的。 它大大限制了使用场景。 第三,考虑到运行时的限制,条件马尔可夫随机场(CRFs)5不适合边缘处理。 考虑到所有这些因素,实时染发面临着巨大的挑战。 同时,电子商务和与客户的数字互动允许人们在不离开家的情况下购买自己喜欢的产品。 其中,稳健型产品推荐功能起一个图1自动染发样本。 (a)输入RGB图像。 (b)我们提出的算法的引导滤波器输出。 最后染色渲染。
重要的作用。 自动评估肤色水平,使个性化推荐美容产品成为可能。 然而,在复杂的环境中,肤色分级受到照明、阴影和成像设备等的影响。 即使是经验丰富的皮肤治疗师也很难用肉眼判断。 本文致力于利用机器学习和火热的深度学习算法来解决这些问题。
语义分割是一种先进的视觉任务,其目标是为每个像素分配不同的类别标签。 然而,受庞大的骨干结构的限制,现有的最先进的模型不适合实际部署。 在本文中,我们努力平衡分割网络的效率和速度之间的关系,并为我们的多任务分割场景提供了一个更简单和更紧凑的替代方案。 为了得到准确的分割结果,应同时考虑全局信息和上下文信息。在此基础上,我们提出了一个空间和上下文信息融合框架(HLNet),将高维和低维特征映射集成到一个网络中。 进一步的实验证实,HLNet在效率和准确性之间实现了显著的权衡。 考虑到背景光照不利于识别肤色,我们提取特征(a.k.a。 基于分段人脸和颜色矩算法的蒙面颜色矩。 在此之后,面膜颜色瞬间被输入到一个强大的随机森林分类器中,以评估一个人的肤色水平。
论文的其余部分组织如下。 在第二节中,我们简要回顾了计算机视觉领域中最新的基于实时和高效的深度学习的语义分割建议以及特定领域的分割算法。 我们在第三节中详细阐述了我们的方案的过程,然后是消融和合作
2 Ready work 准备工作
2.1 Lightweight model 轻量级模型
自从基于深度学习的开创性工作以来,许多高质量的框架都得到了发展。 然而,由于计算有限的平台(例如无人机、自主驾驶、智能手机)的要求,人们更关注网络的效率,而不仅仅是性能。
ENET10是第一个用于实时场景分割的轻量级网络,它不以端到端的方式应用任何后处理步骤。 赵等人,引入了一个级联特征融合单元,以快速实现高质量的分割。 Howard等人,介绍了一个紧凑的编码器模块,该模块基于流线型结构,使用深度可分离卷积来构建轻量级的深度神经网络。 Poudel等人,将高分辨率的空间细节与以低分辨率提取的深层特征结合起来,产生超出实时效果的效果。 最近,LEDNet14被提出,在每个剩余块中使用信道分割和洗牌,以大大降低计算成本,同时保持更高的分割精度
2.2Contextual information 上下文信息
在对特征映射进行常规上采样以恢复原始图像大小时,无法恢复某些细节。 跳过连接的设计可以在一定程度上缓解这种不足。 赵等人,提出了一个金字塔池模块,该模块可以汇总来自不同区域的上下文信息,以提高捕获多尺度信息的能力。 Zhang等人, 设计一个上下文编码模块来引入全局上下文信息,用于捕获场景的上下文语义,并选择性地突出与特定类别相关的特征映射 。Fu等人,通过捕获基于空间和通道注意机制的丰富上下文依赖关系来处理场景解析任务,这大大提高了许多具有挑战性的数据集的性能