Leveraging Semi-Supervised Learning for Fairness using Neural Networks

最新推荐文章于 2021-01-14 14:08:42 发布

肉嘟嘟的zhu

最新推荐文章于 2021-01-14 14:08:42 发布

阅读量208

点赞数

分类专栏：机器学习公平性测试文章标签：机器学习

本文链接：https://blog.csdn.net/zhu1534120216/article/details/108939954

版权

机器学习公平性测试专栏收录该内容

20 篇文章 12 订阅

订阅专栏

利用神经网络实现半监督学习的公平性（in-processing）

数据处理的阶段一般分为三种：pre-processing，in-processing，post-processing,本篇论文是in-processing

研究背景：一是标签数据的缺乏一直是基于机器学习的系统面临的一个难题。二是在一些应用程序中，创建一个标签数据集来训练模型是昂贵和费时的。在这种情况下，半监督学习被证明是一种利用无标记数据提高模型性能的有效方法。不可否认的是，未标记数据不包含标签信息，而标签信息本身在训练机器学习系统中可能是一个重要的偏差来源。

创新点：论文提出了一种利用未标记数据的神经网络的半监督算法，不仅提高了性能，而且提高了决策过程的公平性。该模型称为SSFair，利用未标记数据中的信息来减轻训练数据中的偏差。

研究目标：通过实验证明论文所提出的SSFair，与完全监督的模型相比，SSFair能够利用未标记数据的结构和信息来提高准确性和公平性，SSFair对于相同水平的公平性损失提供了更高的准确性。

研究过程：通过实验，表明SSFair方法可以优化“人口平等，机会均等，几率相等”这三个公平目标。

目标是学习一个二元分类器函数通过Θ参数化，优化两个主要目标分类精度和公平。将通过神经网络建立函数f(.)的模型，为了实现这一目标，将模型的损失函数定义为

A.分类损失

jc(Xi)表示样本Xi的分类损失，定义为学习函数的输出与目标标签之间的交叉熵:

表示学习函数对样本Xi的输出，qi是Xi对应的目标标签，表示在学习过程中是否需要考虑样本Xi，是使样本归零的指标函数

定义一个阈值，该阈值控制学习过程中需要考虑的预测标签的置信度

B：公平损失

1）人口平等：它衡量了受保护群体与未受保护群体预测优势输出能力的差异，要求分类器的决策独立于受保护属性a

2）机会均等：这种衡量注重的是对有利结果的公平性。测量了具有有利真实的受保护群体与未受保护群体预测有利产出概率的差异。

3）几率相等：这个约束要求输出和protected属性独立于标签

除此之外，还有其他的公平性度量方法：是否可以针对这篇文章进行相应的改进？

C.实验：分类器函数f(.)由一个多层感知(MLP)神经网络建模。整个模型的训练使用的是反向传播的损失函数。在给定一组N个样本的情况下，使用Adam优化技术对数据随机的小批进行优化。

数据集：研究预测一个人收入是否超过5万美元的任务。在这两组人中，高收入人群所占的比例并不平等，因此在数据集中不存在人口统计学上的平等。这个数据集包含12个特征，包括分类特征和连续特征。过滤掉了缺少值的样本，处理后的数据集包含45222个样本，12个特征。随机选择70%的样本作为训练集，剩下的30%留给测试集。

论文提出的算法的超参数被调整与验证在一个随机选择的20%的训练数据。设置好超参数后，在整个训练集上对模型进行训练，最终在实验中报告测试数据的结果。

论文实验结果与Manisha等人提出的模型进行了比较，该模型是一个基于神经网络的模型，用于解决公平性问题，是完全监督的，只对标记的样本进行训练。在实验中，对于SSFair和Manisha提出的模型，基于多层感知器(MLP)的神经网络，使用1个大小为32的隐藏层来建模函数f(X)。隐层的输出采用整流线性单元(ReLU)激活。由于任务是二进制分类，我们使用 sigmoid函数作为最后一层的激活函数，并得到最终的输出结果。在隐藏层之后使用dropout层，dropout率为20%。根据验证过程的结果，每个实验从中选择正则化参数。最后，将置信度参数拟合系数设置为0.99为了SSFair。

我们使用Adam优化器来训练模型。我们选择学习率为10−3，对于优化器的其他参数，我们使用推荐的默认值。训练神经网络是通过运行Adam来完成的1000个epoch的训练数据，当使用大小为512的混合的小批次时。

实验结果：这个实验验证了SSFair模型中的公平性可以从未标记数据中受益，因此SSFair方法已经成功地利用了未标记数据来提高公平性。一般情况下，准确性、公平性和参数之间存在权衡关系,适度控制了这种权衡:增加会导致准确性的增加而减少公平性。（公平损失越低，得到的公平越高）

总结：因为没有标签的数据不包括任何标签信息，他们也不持有偏见的标签信息。因此，它们不仅有利于分类器的准确性，而且有利于分类器的公平性。实验表明，与完全监督的模型相比，SSFair能够利用未标记数据的结构和信息来提高准确性和公平性

肉嘟嘟的zhu

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Leveraging Semi-Supervised Learning for Fairness using Neural Networks

利用神经网络实现半监督学习的公平性研究背景：一是标签数据的缺乏一直是基于机器学习的系统面临的一个难题。二是在一些应用程序中，创建一个标签数据集来训练模型是昂贵和费时的。在这种情况下，半监督学习被证明是一种利用无标记数据提高模型性能的有效方法。不可否认的是，未标记数据不包含标签信息，而标签信息本身在训练机器学习系统中可能是一个重要的偏差来源。创新点：论文提出了一种利用未标记数据的神经网络的半监督算法，不仅提高了性能，而且提高了决策过程的公平性。该模型称为SSFair，利用未标记数据中的信息来减轻训练数
复制链接

扫一扫