Fairness in Semi-supervised Learning: Unlabeled Data Help to Reduce Discrimination

半监督学习:无标签的数据有助于减少歧视(pre-processing)

数据处理的阶段一般分为三种:pre-processing,in-processing,post-processing,本篇论文是pre-processing

研究背景:在实际应用中,训练数据往往是标记样本和未标记样本的组合,因此半监督解具有较高的实用价值。而且,由于“理想”是一个崇高的目标,准确与公平的取舍仍然是一个永恒的追求。

研究问题:使用未标记的数据来确定训练集是否可以给我们一种控制值,从而平衡公平性和准确性。

过程中的挑战:1)如何利用未标注数据,更好地兼顾准确性和公平性;

                         2)如何缓解半监督学习中常见的噪声影响

研究方法:为应对出现的挑战,论文提出了一个框架来在预处理阶段实现公平的半监督学习框架semi-supervised learning (SSL)。解决权衡挑战的方法是使用未标记数据来减少表示歧视。表示歧视是由于输入空间的某些部分表示不足。

研究过程:框架中的前两个步骤是伪标记重新采样。第一步是使用伪标记作为SSL方法来预测未标记数据的标签。第二步是根据受保护的属性和标签将数据集划分为组,然后通过在每组中重新采样相同数量的数据点来获得公平的数据集。第三步是集成学习(ensemble learning),解决了未标记数据的标签预测(不正确)所引起的噪声问题。对未标记数据进行预测会在未标记数据的标签中产生一些噪声。集成学习有助于降低标签噪声和训练模型的方差,产生更准确的最终预测。主要框架如下:

一:Where to Sample

整个样本中的数据分为带有标签的和不带标签的两种,将这两种分别分为两个集合存放。带有标签的数据集分为原始训练集和测试集,不带标签的数据集根据给定的抽样率随机抽取一定数量的实例。原始训练集中的实例用来对模型进行训练,将训练好的模型对没带标签的实例进行预测,预测出一个个实例的伪标签。预测的伪标签的实例和原始训练集中的实例组成一个新的训练集。

二: How to Sample

数据集按照protected属性和labelled - value分为4组:

1)受保护阳性标签组(GPP),

2)无保护阳性标签组(GUP),

3)无保护阴性标签组(GPN),

4)无保护阴性标签组(GUN)

目的是通过抽样调整数据点,使每组数据点的大小相同。

然后从这4组中随机抽样,每次抽取的个数相同。重复执行K次,获取多个公平的数据集。这一过程又叫做重采样:

三:How to Train the Model

也就是集成训练的过程,其目标是在多个公平数据集Dsf上实现更准确、更少歧视的训练结果。

首先将每个fair数据集放到它自己的模型上,然后最终的模型将根据来自所有基础模型的预测的聚合来平均输出。从大多数基础模型得到的预测被预测为最终预测。

计算歧视值:

实验过程:实验分别在两种数据上进行,真实的数据和合成数据。

真实数据

其中真实的数据用了三个数据集,分别是Health dataset,Bank dataset,Adult dataset

真实数据集
数据集抽取样本个数所有特征个数受保护特征
Health dataset10000132Age
Bank dataset3120820Age
Adult dataset4884218Gender

 

在训练过程中,从预测模型中排除受保护属性,以确保组间的公平性。所述受保护属性仅用于评估测试阶段的识别度量。在上面的三个真实数据集中,数据都被标注了。首先,将整个数据集随机分成两半:一半作为标记数据集,另一半作为未标记数据集。在标记的数据中,设置分割率s = 0.8,即80%的数据用于训练,20%的数据用于测试。样本容量ns等于三个数据集中四组的最小容量。最终结果是在新的训练数据集中平均运行50个结果。每次运行,生成K = 200公平数据集和构造与K = 200基础模型最终的预测。用5倍交叉验证原始训练数据集和测试数据集。

通过两种分类器逻辑回归(LR)和支持向量机(SVM)进行实验,准确性与训练模型相关,而训练模型的选择与数据集相关,结果表明:

1)未标记数据在一定程度上有助于提高准确性

2)不同的训练模型表现出不同的歧视水平

3)LR在识别歧视性上比SVM效果更好

样本数量的影响:

1)准确性在早期迅速增加,然后随着样本量的增加而趋于稳定

2)当样本容量增加时,歧视水平取决于未标记数据可能带来的标签噪声的数量。

3)LR比SVM对样本容量更敏感

结果表明,与其他方法相比,论文提出的方法(FS框架)能够将歧视降低到很低的水平,同时取得较高的识别精度。

合成数据

合成数据集的目的是展示FS方法在歧视性测试数据集和公平测试数据集上的有效性。歧视性测试数据集是指数据点在每一组中不平均呈现的测试数据集,公平性测试数据集是指数据点在每一组中平均呈现的测试数据集。

我们生成22000个均匀随机分布的二进制类标签和一个受保护属性a,并从两种不同的高斯分布抽取样本,对每个标签取一个二维特征向量作为-符号。合成数据集中每个组的大小大致相同。然后我们从合成数据集中随机抽取2000个数据点作为一个公平的测试数据集,并将剩余的数据集随机分为两部分:一半作为带标签的数据集,另一半去掉标签作为未带标签的数据集。

合成数据集是一个公平数据集,而歧视数据集是通过基于合成数据集校准组GPP中的数据点而生成的。例如,歧视数据集D1是在组GPP中随机抽样2000数据点,其他组中的数据点不改变。歧视数据集D2是在组GPP中随机抽样3000数据点,其他组中的数据点不改变。在每个歧视数据集中,我们抽取2000个数据点作为歧视测试数据集,其余数据点作为训练数据集。

实验同样表明,论文的方法有效的降低了歧视,提高了准确性。

展望:我们打算探索利用未标记数据在处理阶段加强公平性的公平性约束设计。此外,本文还假设有标记和无标记具有相同的分布。然而,这种假设在某些实际情况下可能不成立。因此,另一个研究方向是在标记数据和未标记数据分布不同的情况下,如何实现公平的半监督学习。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值