人脸颜值预测（facial beauty prediction）综述

最新推荐文章于 2023-03-12 08:46:03 发布

Jankin_Tian

最新推荐文章于 2023-03-12 08:46:03 发布

阅读量5.4k

点赞数 7

分类专栏： # 人脸识别论文阅读文章标签：人脸颜值预测

本文链接：https://blog.csdn.net/xiao_xian_/article/details/108400131

版权

论文阅读同时被 3 个专栏收录

7 篇文章

订阅专栏

新浪

1 篇文章

订阅专栏

人脸识别

1 篇文章

订阅专栏

文章目录

一、什么是人脸颜值预测
- 研究意义
二、主要方法

一、什么是人脸颜值预测

人脸颜值预测是一个新兴问题，目的是使评价与人类的观点相一致。
FBP是一个回归问题。
可以采用分类的方法来辅助，可以提高网络的鲁棒性。
为了处理这个问题，用有数据驱动的方法来寻找面部特征与美容评估之间的关系。

研究意义

面部美容预测(FBP)的基础研究促进了整形外科和化妆品行业的快速发展，如美容推荐、美学手术规划、基于面部的姿势分析和面部美化。

二、主要方法

2.1 传统方法

2007年 A humanlike predictor of facial attractiveness

使用许多描述面部几何形状、颜色和纹理的面部特征来预测面部吸引力

2.2 深度的方法

卷积神经网络(CNN)在面部识别和理解方面表现出巨大的性能，被证明是一种有效的面部特征探索方法。
设计良好的网络与有效的结构，来更好的表示性能。
建立有效的信息传输路径。否则容易导致找不到特征映射的内在相关性，从而导致了特征表示的次优效果，这也就限制了性能。

数据集

SCUT-FBP
1）该数据集中包含500张亚洲女性图片
2）每张图片大小不一样
SCUT-FBP5500
1）该数据集中共包含5500张图片，其中有2000名亚洲女性，2000名亚洲男性，750名白种人男性和750名白种人女性。
2）每张图片的大小都是350 × 350。
3）每张图片的分数是由60名志愿者，在1-5之间评价，这意味着吸引力从低到高。
ECCV HotOrNot dataset
包含 2056 张图片，每张图片带有一个Score
该训练集已经被分为 5 个训练集和 1 个测试集。
Large-scale database of Asian women’s face database (LSAFBD)
包含20,000张带标签的图片（10000女性照片和10000男性照片）和80000无标签的图片。

评价指标

Pearson Correlation (PC)【皮尔逊相关】
Mean Absolute Error (MAE) 【平均绝对误差】
Root Mean Squared Error (RMSE) 均【方根误差】

MAE和RMSE测量了学习算法的拟合质量，如果值更接近于零，则性能更好。
PC测量 ${h({x^{i}})}$ 和 ${y^{i}}$ 的线性相关，它的值介于1和-1之间，其中1表示绝对正线性相关，0表示无线性相关，-1表示绝对负线性相关

${m}$ 代表图片的数量
${x^{i}}$ 代表输入图片 ${i}$ 的特征
${y^{i}}$ 表示图片 ${i}$ 颜值得分的 Groundtruth

论文：2011年 Quantitative analysis of human facial beauty using geometric features

计算特征点之间的几何距离和比率作为向量，然后将它们作为机器学习算法的特征。

论文：2016年 A new face beauty prediction model based on blocked lbp

使用ASM 提取人脸特征点，用Blocked-LBP提取人脸特征

论文：2018 年 Transferring Rich Deep Features for Facial Beauty Prediction

一、创新点

将迁移学习应用于人脸颜值预测问题，以进行特征提取。
本文提出了一种将丰富的深层特征从预训练的人脸检测模型中迁移出来的方法，并将这些特征反馈到贝叶斯岭回归算法中，用于人脸颜值预测。
执行了一种有效的特征融合策略, 可以在人脸颜值预测任务中建立更多信息的面部特征。

研究[21]表明，低层特征包含更详细的信息，而高层特征代表更多的语义意义。

二、模型整体结构

预训练+ fune tune

三、实验结果分析

在实验中使用HOG、灰度和LBP特征进行比较，以评价深CNN的特征提取能力。

不同的设置形成平方图像
我们进行图像裁剪，图像扭曲，图像填充，看看面部颜值预测是否与非面部元素有关，如理发、穿着、姿势等。

在裁剪操作中，我们使用 [Dlib-ml: A Machine Learning Toolkit] 提供的检测到的面部区域，并对面部区域进行裁剪为224*224大小。
在扭曲操作中，直接将图片扭曲为224*224大小的图片。
在填充操作中，调整较长的一侧到224 和用0填充较短的一侧，以形成224×224图像。

还会做的一些Trick
（1）我们还通过减去均值和除以像素的标准方差来规范输入图像。
（2）我们手动裁剪图像的中心区域，并将其作为我们的神经网络的输入，以防人脸检测失败。

在这里插入图片描述

如上图所示：在SCUT-FBP数据集上，裁剪达到最佳性能。这表明面部区域在美容感知中起着更重要的作用，而背景可能在我们的面部美容预测任务中起噪声作用。

实验结果

我们将5个实验结果作为去除样本方差的最终性能

Table 2
table 3

贝叶斯岭回归与其他特征描述符的性能比较

RGB Gray:我们将RGB面部图像转换为相应的灰度图像，并以扁平像素灰度值作为特征。
HOG【histogram of oriented gradients 定向梯度直方图】是一种图像特征描述符，广泛应用于计算机视觉和图像处理中的目标检测任务。
参考论文：[Histograms of oriented gradients for human detection]
LBP【local binary patterns 局部二值模式】是一种特别关注纹理细节的特征描述符，广泛应用于许多机器视觉任务中。

在 ECCV HotOrNot dataset 上的结果：

方法B 要比方法A的效果要好。【方法B 相比方法A没有进行任何的处理】
我们认为主要原因是注释者也可能考虑到额外的信息，如发型，姿势和衣服，同时标记这些面部美容分数，而不仅仅是测量面部区域。

论文：2018 年 CRNet: Classification and Regression Neural Network for Facial Beauty Prediction

一、创新点

（1）对每个Face Image 提供了一种“Soft Label”
（2）提出了一种新的网络框架，classification and regression network (CRNet)，使用不同的分支，同时处理分类和回归任务。
（3）提出了一种损失函数。由用于分类的交叉熵(CE)和用于回归的均方误差(MSE)组成。

1.1 问题

泛化能力较差
大多数标记图像都处于受限的环境中，这使得这些模型无法在现实生活中使用。

二、模型整体结构

2.1 神经网络结构

模型结构

基于ResNet18的网络结构，我们将ResNet18的最后一个Softmax层替换为两个完全连接的分支层，分别用于分类和回归任务。
CBranch【分类分支】包含三个全连接层，256, 64 和 3（or 5）
RBranch 【回归分支】包含三个全连接层，256, 64 和 1

[10,29]表明将回归问题作为多标签分类任务可以获得更准确、更健壮的性能。

我们不将输出神经元的数目设置为1，而是将输出范围离散为c部分，最终回归值可计算为：

${S_{c}}$ 表示带有标签类的Softmax层的概率输出
$x$ 表示特征向量，
$o$ 表示来自分类网络的最终输出回归值。

2.2 损失函数的设计

损失函数

CRLoss 可以提高对异常值的鲁棒性。

三、实验结果分析

在这里插入图片描述

可视化分析

可以看出鼻子，嘴和脸的大小和形状是面部美容评价的重要部分。

论文：2020年 Deep Learning for Facial Beauty Prediction

一、创新点：

1）提出了一种 residual-in-residual (RIR) 的结构,使梯度流更深地传递，并为信息传输建立更好的途径。
2）提出了一种spatial-wise and channel-wise attention (SCA) block利用特征之间的内在相关性，分配特征之间的重要性，为面部特性信息找到了更好的表示。

二、模型整体结构

1）三种残差结构的设计

2）通道和空间注意力机制

通道和空间注意力公式部分

三、实验结果分析

1）实验结果

这个表格代表的是 Train 和 Test分别按照60 - 40%进行分割处理的。

2）对残差模块数量的消融实验
对残差数量的消融实验
${K_{m}}$ ${K_{g}}$ 代表的是模块 RIRM and RIRG 的数量

论文：2020年 Facial Beauty Prediction Based on Lighted Deep Convolution Neural Network with Feature Extraction Strengthened

从文章题目中可以看出来，这个一篇关于增强特征提取能力的文章。
相对于人脸识别，颜值打分的研究进展相对缓慢

是FBP的公共数据库较少，FBP的实验只能在小规模数据库上进行Train 和 Test。
目前对人脸颜值预测是相对主观的，缺乏标准，CNN模型很难训练。

一、创新点：

（1）提出了一个 lighted deep convolution neural network (LDCNN) 通过Inception model of GoogleNet and Max-Feature-Max activation layer，可以提取图像的多尺度特征，得到压缩的表示，并减少参数。
（2）第一个卷积层是由分裂和合并策略构建的Inception Model，它可以通过多个卷积滤波器提取图像的多尺度特征
（3）利用数据增强技术扩展了亚洲妇女脸数据库(LSAFBD)【仅关注了亚洲女性的人脸特征】
（4）利用小卷积核提高预测精度，降低网络参数。

二、模型整体结构

在这里插入图片描述

Inception Network 可以提取图像的多尺度特征。
增加Google Net中隐藏层的宽度，可以提取更多的细节特征，提高精度。

激活函数–MFM （Max-Feature-Max）

实现压缩特征，降低网络参数。
基于Maxout 激活函数提出的。

三、实验结果分析

在这里插入图片描述

(attract1, attract_1)=0.59 说明了1类被准确预测到1类的百分比
(attract2, attract_1)=0.27 说明了1类被错误预测到2类的百分比

面部图像的美越近，就越难区分，因为可识别的细节是重叠的，而且更模糊。这可能是由于面部美的本质还不清楚，缺乏客观的定义，因此我们只能从主观的角度来理解它。

论文：2020年 2M BeautyNet: Facial Beauty Prediction Based on Multi-Task Transfer Learning

多任务迁移学习可以有效地避免过度拟合，并利用相关任务的辅助信息来优化主要任务。

一、创新点：

（1）针对数据小和过拟合问题提出一种新的模型结构Multi-input Multi-task Beauty Network (2M BeautyNet)。

最近，多任务网络结构主要是单输入和多输出。它适用于输入具有多个标签的数据集，称为多标签学习。
不幸的是，LSFBD只有一个面部美容标签，但不包括其他面部属性标签。
因此，我们对FBP和其他面部属性任务的MTL（Multi-task Learning）研究不能使用多标签学习，而是可以对不同数据库的不同面部属性任务进行多任务研究。

（2）采用多任务损失权重自动学习策略。避免了模型有一个任务主导整个损失，而其他任务不能影响共享层的学习过程的现象。
（3）将传统方法与深度学习方法相结合。用于分类的随机森林替换 Softmax分类器。