Fair Attribute Classification through Latent Space De-biasing

最新推荐文章于 2023-01-31 06:59:51 发布

肉嘟嘟的zhu

最新推荐文章于 2023-01-31 06:59:51 发布

阅读量464

点赞数 1

分类专栏：机器学习公平性测试文章标签：机器学习

本文链接：https://blog.csdn.net/zhu1534120216/article/details/111185837

版权

机器学习公平性测试专栏收录该内容

20 篇文章 12 订阅

订阅专栏

题目：通过潜在空间去偏的公平属性分类

研究背景：大规模监督学习一直是视觉识别发展背后的驱动力。然而，最近人们越来越担心这些视觉识别系统的不同影响。人脸识别系统从没有充分代表某些种族群体的数据集训练，对这些群体显示出较低的准确率。在被描述的人的活动性和性别表达高度相关的数据集上训练的活动识别模型已经过度放大了这些相关性。计算机视觉系统是一种经过训练的统计模型，可以在大多数例子上获得最大的准确性，它们通过利用数据集中最具鉴别性的线索来做到这一点，这可能是不受欢迎的。在这项工作中，我们引入了一种新的训练计算机视觉模型的框架，旨在减轻这种担忧。

研究方法：我们提出了一种使用生成对抗网络的数据集扩充策略(GANs)，通过在现有图像中添加或删除眼镜，成功地消除了这种相关性，从而创建了一个平衡的数据集。即我们提出了一种在GAN潜在空间中扰动潜在向量的方法，该方法成功地解除目标和受保护属性的关联，并允许对真实数据集进行扩充和消除偏倚。

研究过程：

1.无偏数据集的产生：我们使用一个在真实图像X上训练的GAN，它的生成器G从一个随机的潜在向量z∈Z生成一个合成图像X。我们可以使用学习过的函数ft(x)和fg(x)为这些图像分配语义属性标签。然而，由于GAN从其训练数据中继承了相关性，对z进行随机抽样将产生与X类似的相关性和偏差的Xsyn（合成数据集）。因此，我们提出了一种潜向量摄动方法，它允许我们生成一个去偏的Xsyn。

2.度量准则：一、AP平均精度二、DEO机会相等的差异：假阴性率三、BA偏差放大：概率之差四、KL分数分布的差异：更严格的几率均等

3.数据集：CelebA 2022599张名人的脸，每一张都有40个二进制属性标签。假设男性属性对应于性别表达。在其他39个属性中，我们选择了其中26个属性，这些属性对于每种性别的表达都具有1%到99%的正面形象。我们注意到属性标签之间存在一些差异，于是决定将属性分为三类:标签不一致、性别依赖和性别独立。

4.实验：为了生成图像，我们使用了一个512-D潜伏空间的进步性GAN，我们使用10,000张合成图像，标记为基线属性分类器，学习潜在空间中的超平面(ht或者hg)，使用scikit- learning库中的线性支持向量机实现。对于所有的属性分类器，我们使用在ImageNet上预先训练的ResNet-50作为基本架构。我们将ResNet中的全连接层替换为2个全连接层，并使用大小为2048的隐藏层。Dropout和ReLU应用在这些完全连接的层之间。模型的输入为64×64幅图像及其目标属性标签。我们用二元交叉熵损失对所有模型进行训练20个epoch，批大小为32。我们使用的Adam优化器学习率为1e-4。我们将损失最小的模型保存在与训练集分布相同的验证集上。

5.实验结果：一、我们的模型在三种度量（DEO，BA，KL）上表现的更好，在AP上保持相等。

二、使用我们的增强法训练的模型在得分上始终比基线有更小的变化:标记不一致时为0.09比0.12，性别依赖时为0.07比0.11，性别独立属性时为0.06比0.09。

三、当我们试图构建代表性不足的样本时，基线分数的变化更高。可能意味着在图像处理过程中，未充分表示的属性更难维护

结论：针对目标标签和被保护属性之间的相关性(如性别表达)可能导致结果偏移的情况，提出了一种基于gan的数据增强方法来训练更公平的属性分类器。我们报告了大量属性和度量的结果，包括与现有技术的比较。我们也分析了当我们的方法是最有效时的细节。我们的发现显示了在各种设置中增加GAN潜在空间数据的前景。我们希望我们详细的分析和公开的代码可以作为未来在这个非常重要的领域探索的垫脚石。