《Fair Generative Modeling via Weak Supervision》论文阅读笔记

《Fair Generative Modeling via Weak Supervision》论文阅读笔记

来自ICML 2020的一篇poster。

1 Motivation

1)Generative model has a wide range of application scenarios, such as Bert and GPT3 in NLP field, GaN and VAE in CV field, etc.

生成式模型具有广泛的应用场景,如NLP领域的BERT和GPT3,CV领域的GAN、VAE等。

2)Due to the acquisition cost of data sets and other reasons, there are more or less deviations in the commonly used data sets at present, which leads to the deviations in the generated model trained on this basis, and ultimately affects the performance of the model.

由于数据集获取成本等原因,目前常用的数据集或多或少存在偏差,导致以此训练出来的生成模型也存在偏差,最终影响了模型的表现。

CelabA中存在的性别偏见

具体来说,在目前通用的生成模型中,往往将数据集中所有数据对损失函数的贡献均等考虑,即默认数据集中的各个属性是独立同分布的,而实际上想获取一个足够大的无偏数据集是非常困难的,这也就意味着,当使用人工筛选的无偏数据集进行实验时,由于样本数量太少,导致模型效果不好;而使用有偏数据集,将导致训练出来的模型也存在偏见。本文的出发点就在于同时使用无偏和有偏数据集,根据数据来源预先训练一个贝叶斯分类器,然后对生成图像进行重新赋权,平衡数据集中优势属性与劣势属性的权重,实现在有偏数据集上的弱监督无偏数据生成。

2 Contribution

提出一个数据赋权方法,降低被偏爱数据属性在loss中的权重,平衡数据集偏差。

A data weighting method is proposed to reduce the weight of the preferred data attributes in loss and balance the data set deviation

将该理论应用于BigGAN对CelabA的图像生成实验,实现了较好的纠偏效果。

3 Approach

3.1 数据集构造

本文定义了两个数据集,一个是无偏数据集 D r e f D_{\mathbb{ref}} Dref,认为这里面的数据都是独立同分布的,另一个是有偏数据集 D b i a s D_{\mathbb{bias}} Dbias,认为这里面对于不同属性,可能存在数据偏差,在进行训练时,将这两个数据集一起用于模型训练。即 D d a t a = D r e f ∪ D b i a s D_{\mathbb{data}} = D_{\mathbb{ref}} \cup D_{\mathbb{bias}} Ddata=DrefDbias 。这两个数据集在构造时通过人工筛选得到。

3.2 重要性权重(Importance Weight)

本文对于数据纠偏的解决方法就是对不同数据施加一个重要性权重,这是本文的核心思想之一,而这个解决思路实际上异常简单,所谓数据 x i x_i xi的重要性权重,就是 x i x_i xi来自无偏数据集的概率与有偏数据集概率的比值,即:
w ( x i ) : = p r e f ( x ) / p b i a s ( x ) w(x_i) := p_{\mathbb{ref}}(x)/p_{\mathbb{bias}}(x) w(xi):=pref(x)/pbias(x)
注意,这里的重要性权重计算公式只针对有偏数据,无偏数据的重要性权重 w ( x i ) = 1 w(x_i)=1 w(xi)=1

为什么这么设计呢?在这里我们已经知道,对于无偏数据集 D r e f D_{\mathbb{ref}} Dref来说,我们可以直接用所有数据计算loss函数的均值作为模型的损失函数,不需要考虑赋权问题,这就相当于是一份模范作业,而有偏数据集就是被老师抓上黑板的差生,被要求尽量向好学生靠拢,所以对于有偏数据集计算出来的loss,用无偏数据与有偏数据的概率进行归一化,就能让有偏数据集的loss结果向无偏数据集靠拢,不至于使有偏数据集中的优势属性占据过多权重,挤占了弱势属性在计算loss时的比重。作者在引入重要性权重时,借用了下面这个公式说明其意图,正是使有偏数据与无偏数据计算loss时尽量取得相同的结果:

3.3 贝叶斯分类器

前面我们已经知道本文定义重要性权重的方法了,现在问题在于,对于GAN网络模型,我们如何知道生成的fake image属于有偏数据集还是无偏数据集呢?这个时候考虑使用一个二值分类器,给生成数据打标签,本文使用的是一个贝叶斯分类器来完成这个任务,即输出图像属于哪个数据集的经验概率。

根据贝叶斯概率公式,我们可以先写出重要性权重的估计值:
w ( x ) = p r e f ( x ) p b i a s ( x ) = γ c ∗ ( Y = 1 ∣ x ) 1 − c ∗ ( Y = 1 ∣ x ) w(\mathrm{x})=\frac{p_{\mathrm{ref}}(\mathrm{x})}{p_{\mathrm{bias}}(\mathrm{x})}=\gamma \frac{c^{*}(Y=1 \mid x)}{1-c^{*}(Y=1 \mid x)} w(x)=pbias(x)pref(x)=γ1c(Y=1x)c(Y=1x)
上面的 c ∗ c^{*} c是一个二值贝叶斯最优分类器,将输入的 x x x分成0和1两类,0表示有偏数据集,1表示无偏数据集, γ = p ( Y = 0 ) / p ( Y = 1 ) \gamma = p(Y=0)/p(Y=1) γ=p(Y=0)/p(Y=1),是一个已知常数,为数据集中有偏数据与无偏数据数目的比值。

3.3.1 经验贝叶斯分类器

所以这一阶段的目标转化为训练一个能够精准区分数据来源的贝叶斯分类器,而我们都知道,想要实际上拟合一个最优分类器是很困难的,我们只能尽量去逼近它。在实际训练时,作者使用ResNet18作为网络结构,此处用到第一个标签,即训练集中数据的来源(有偏还是无偏数据集),损失函数如下:

训练贝叶斯分类器用的是经典的NCE loss,不作过多介绍,最终,使用如下形式的经验重要性权重作为重要性权重的表达形式:
w ^ ( x ) = c ( Y = 1 ∣ x ) c ( Y = 0 ∣ x ) \hat{w}(\mathrm{x})=\frac{c(Y=1 \mid x)}{c(Y=0 \mid x)} w^(x)=c(Y=0x)c(Y=1x)

3.3.2 最优贝叶斯分类器

为了评估上面那个经验贝叶斯分类器是不是达到了良好的分类效果,作者给出了最优贝叶斯分类器的NCE计算方式:

也就是说,当经验贝叶斯分类器训练到最优的时候,它的分类结果应该和每个属性通过上式计算的均值相等。

3.4 算法

最后附上本文的算法:

4 Experiment

总的来说,本文的思想就是使用上面的贝叶斯经验分类器计算出有偏差数据集的重要性权重,再在计算loss时引入这个权重,实现纠偏,思想比较简单。

本文的实验对象是BigGAN,只做了在CelebA上的实验,评估了其纠偏能力和图像质量,给出了定量和定性结果,并对不同组件设置进行了一定的消融实验。

实际操作时,本文构造了三种bias模式:

1) 单属性模式,偏差为0.9。这一组比较的是性别偏差,也就是在有偏数据中,有90%的人脸属于女性。

2) 单属性模式,偏差为0.8。这一组比较的是性别偏差,也就是在有偏数据中,有80%的人脸属于女性。

3) 多属性模式。这一组比较的是性别与发色的组合偏差,这一组中男女性别比例大致相同,而非黑发占据压倒性优势。

4.1 实验指标

本文从GAN网络生成图像的公平性和图像质量两个方面进行评估,图像质量的评估用的是GAN网络领域的老方法FID,公平性指标定义了一个Fairness Discrepancy指标,计算的是
f ( p r e f , p θ ) = ∣ E p r e f [ p ( u ∣ x ) ] − E p θ [ p ( u ∣ x ) ] ∣ 2 f(p_{\mathbb{ref}},p_{\theta})={|{\mathbb{E}}_{p_{\mathbb{ref}}}[p(\mathbb{u}|\mathbb{x})]-{\mathbb{E}}_{p_{\mathbb{\theta}}}[p(\mathbb{u}|\mathbb{x})]|}_2 f(pref,pθ)=Epref[p(ux)]Epθ[p(ux)]2
也就是比较某个属性 u \mathbb{u} u在本文构造的数据集训练出的模型与无偏数据集训练出的模型之间的似然差异,采用蒙特卡洛法计算。

4.2 NCE loss比较

首先比较了他们的经验NCE loss与最优的NCE loss的性能差异,这里设置的有偏数据与无偏数据比例相同:

预测结果基本上和理论计算的差不多。

4.3 重要性权重可视化

对于上述的三种实验设置,本文可视化了重要性权重的大小,最终发现弱势属性普遍有更高的权重,强势属性被分配了较低的权重。

4.4 定性结果

作者给出了single,bias0.9和multi组实验生成的图像,发现与原始数据结构相比具有一定的纠偏作用:

single,bias0.9
multi

4.5 消融实验

作者研究了single,bias0.9和multi组实验中无偏数据集与有偏数据集比例对于模型表现得影响,这里引入了两个baseline,一个是完全没有考虑纠偏的equ-weight方案,另一组是考虑将有偏数据集与无偏数据集分开训练,二者共享同一网络参数的conditional方案:

single,bias0.9
multi

最后发现,当有偏数据占优势时,模型纠偏效果越好,而随着无偏数据集的比例增大,三者表现逐渐趋同。同时本文的方法会牺牲图像生成质量,FID结果普遍较差。

5 结论

感觉方法简单,而且不需要用到过多的监督信息,但是我认为构造数据集需要精挑细选,假如是一个由很多个属性的数据集,纠偏能力可能会打折,因为本文那个经验贝叶斯分类器没有对属性的判别能力,如果引入一些弱监督信息,可能可以进一步提升模型的纠偏水平。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值