一、内容概述
1.主要内容
旨在定义一个通用的,灵活的,可参数化的框架,涵盖了公平性度量的大多数可能性。
2.背景
公平概念缺乏统一的理解和度量标准。
3.本文贡献
1) 通过分类维度对现有指标进行综合分析的基础上定义了这一个新的框架。从文献中应用的度量出发,通过泛化得到一个统一的模型,而不是从一个唯一的抽象公平定义出发。
2)通过将曝光度、效用和有效性建模为用户/项目空间的概率分布,有可能通过两种信息理论测量方法(即kull back-lei bler散度和互信息)来捕捉大多数现有的公平性指标。
3)该框架允许对以前提出的指标中缺少的一些特征进行建模,例如用户/项目组或个人之间忽略任何理想目标收益分布的独立性。
4)基于现有指标的覆盖,对该框架在人工定义的合成数据集和推荐系统输出上进行验证,以覆盖不同的公平强度和弱点。
4.主要流程
建立对指标分类的五个维度–>对现有公平性度量分类–>提出基于信息论的通用框架–>验证框架有效性
二、章节详述
1、公平维度
定义五个正交维度(D1-D5)作为独立的分类标准,根据这些标准对推荐系统公平性评价的现有度量进行分类。
1)D1—利益(曝光度Exp,有效性Eff):所涉及的需要公平分配的利益类型。
曝光度:指项目在多大程度上暴露给用户;
有效性:项目的暴露在多大程度上对用户有用。
2)D2—利益相关者(用户,物品Us/供应商It):旨在分别公平对待用户和生产者。推荐系统的一个核心特征是以用户和供应商为中心的效用双重性,也被称为用户/消费者和提供商/生产者公平,或简称为C公平和P公平。
3)D3—分区粒度(两组2g,多组ng,个人I):公平通常需要比较不同群体成员的平均利益,划分成组的粒度可以沿着一个范围变化。
4)D4—曝光方案(评级Rat、集合Set、排名Rank):公平性度量框架应该能够在不同的项目显示方式下衡量项目的暴露程度。
5)D5—公平标准(均等P、规模比例S、效用比例U、独立性I):用于声明以某种方式在用户/项目或用户组/项目组之间分配利益是否公平的总体标准。
2、公平指标
本文的目的不是给出一个全面的度量标准及其定义的目录,而是分析文献中提出的度量标准在多大程度上是通用的,或者它们实际上是否局限于不同的特定场景。更具体地说,本文是识别那些允许捕捉不同的公平场景的度量方案,评估度量标准的场景覆盖率,包括尽可能多的度量标准,并且至少根据可能的公平场景的覆盖率来描述它们的属性。本文的工作更符合结果公平性。
本文在表1中列举了近年来所提出的公平性度量标准及其覆盖的对应维度的内容,建议读者结合表格内容自行阅读这部分综述内容。
3、理论框架
1)信息论中的两个基本度量标准:
KLD:衡量两个分布之间的差异程度,差异越小,KL散度越小。
ML:互信息是度量两个事件集合之间的相关性。
2)框架创新点:
第一,除了曝光以外,还将项目曝光有效性建模为单个用户/项目对的概率分布;
第二,定义了基于MI的度量,以此捕捉用户/项目组和个人之间的独立性,而不管任何目标利益分布(基于独立性的公平性)。
3)框架定义
- 𝜓(𝑢,𝑖):项目𝑖对用户𝑢的效用,即用户𝑢认为项目𝑖的有用程度。
- 𝜙(𝑢,𝑖) :项目𝑖对用户𝑢的曝光度,即系统为用户-项目配对会面提供了多少机会。
- 𝙴𝚏𝚏(𝑢,𝑖) = 𝜙(𝑢,𝑖) ⋅ 𝜓(𝑢,𝑖):项目暴露给用户的有效程度,其中前者为系统驱动的函数,后者为用户定义的函数。
其中,任一函数下降则𝙴𝚏𝚏函数下降,并对每个用户/项目对测量有效性。
对以上三个函数进行归一化获得在用户/项目空间上的三个分布 p θ p_θ pθ,𝜃∈{𝜓,𝜙,𝙴𝚏𝚏},即 p θ ( u , i ) = θ ( u , i ) ∑ u ∈ U , i ∈ I θ ( u , i ) p_θ(u,i)=\frac{θ(u,i)}{\sum_{u∈U,i∈I}{θ(u,i)}} pθ(u,i)=∑u∈U,i∈Iθ(u,i)θ(u,i)。
1.不平等的量化
用户或项目组的不平等通过真实分布
p
θ
p_θ
pθ和公平利益分布
Q
Q
Q之间的KLD来量化:
I
n
e
q
u
i
t
y
(
θ
,
Q
,
A
X
)
=
D
K
L
(
P
θ
∣
∣
Q
;
A
x
)
=
∑
x
∈
A
X
P
θ
(
x
)
l
o
g
P
θ
(
x
)
Q
(
x
)
Inequity(θ,Q,A_X)=D_{KL}(P_θ||Q;A_x)={\sum_{x∈A_X}P_θ(x)log}\frac{P_θ(x)}{Q(x)}
Inequity(θ,Q,AX)=DKL(Pθ∣∣Q;Ax)=x∈AX∑Pθ(x)logQ(x)Pθ(x)其中,
- x x x为某个用户或物品属性;
- A X A_X AX为面向用户或项目的组分区;
- Q Q Q为目标分布,可以同等收益、与用户群规模成比例、与效用成比例;
2.待遇差异的量化
待遇差异通过组依赖性获得,组依赖性根据互信息(MI)测量:
D
e
p
e
n
d
e
n
c
e
(
θ
,
A
X
,
A
Y
)
=
I
θ
(
A
X
;
A
Y
)
=
∑
x
∈
A
X
,
y
∈
A
Y
P
θ
(
x
,
y
)
l
o
g
P
θ
(
x
,
y
)
P
θ
(
x
)
∗
P
θ
(
y
)
Dependence(θ,A_X,A_Y)=I_θ(A_X;A_Y)={\sum_{x∈A_X,y∈A_Y}P_θ(x,y)log}\frac{P_θ(x,y)}{P_θ(x)*P_θ(y)}
Dependence(θ,AX,AY)=Iθ(AX;AY)=x∈AX,y∈AY∑Pθ(x,y)logPθ(x)∗Pθ(y)Pθ(x,y)
- A X , A Y A_X,A_Y AX,AY分别表示用户和项目分区
- 当测量单个项目和用户组时,即测量用户组在多大程度上不会影响暴露的项目。换句话说,用户组不提供关于向该组中的用户推荐什么项目的信息。
- 当测量单个用户和项目组时,即衡量项目组在多大程度上不会影响向哪些用户展示项目。
- 当考虑用户组和项目组时,即检查用户和项目组是否相互影响。
4)框架泛化性
存在的疑问(文中标黄部分)
- 文中涉及的独立性具体指什么?
- 目标分布 Q Q Q的阐述
由于这篇文章后半部分实在是没有读下去的动力,笔记就记到这里了,有问题可以评论或者私信我哦
链接:原文章 link
原创笔记 ,转载需说明