Bregman divergence
Bregman 散度(Bregman divergence or divergence distance)是一种类似于距离度量的方式,用于衡量两者之间的差异大小。
定义
可以认为,Bregman散度是损失或者失真函数。考虑如下情况:设点 p 是点 q 的失真或者近似的点,也就是说可能 p 是由 q 添加了一些噪声形成的,损失函数的目的是度量 p 近似 q 导致的失真或者损失,因而Bregman散度可以用作相异性函数。
更为形式化地,定义函数
F:Ω→R
。其中
Ω
是一个凸集,
由该函数
F
生成的Bregman散度通过下面的公式给出:
其中 ∇F(q) 表示函数 F 在
以上公式的后半部分 L(p,q)=F(q)+⟨∇F(q),(p−q)⟩ 表示了函数F在 q 点附近的线性部分,而Bregman散度是一个函数与该函数的线性近似(一阶Taylor展开)之间的差,选取不同的函数F可以得到不同的Bregman散度。
性质
1. 不满足三角不等式,即对任意的x、y、z,以下不等式不一定成立:
2. 不满足对称性,即对任意x和y,下式不一定成立:
DF(x,y)=DF(y,x)
3. 非负性:对于所有的p和q,满足 DF(p,q)≥0 ,这一点是由函数F的凸性决定的;
4. 凸性: DF(p,q) 在第一个参数上是凸的,但是在第二个参数上不一定是;
5. 线性:如果我们将Bregman散度考虑为函 F 的操作符,那么它对于非负的系数是线性的。即对于严格凸且可微的函数
DF1+λF2(p,q)=DF1(p,q)+λDF2(p,q)
6. 对偶性:函数 F 具有凸的共轭
D∗F(p∗,q∗)=DF(q,p)
其中, p∗=∇F(p) , q∗=∇F(q) 是p和q的对偶点。
举例
选择不同的函数 F ,就可以得到不同的Bregman散度形式:
欧式距离平方
DF(x,y)=||x−y||2
是令 F(x)=||x||2 得到的。马氏距离平方
DF(x,y)=12(x−y)TQ(x−y)
是令 F(x)=12xTQx 得到的,这可以看作是以上欧式距离平方的推广。KL散度
DF(p,q)=∑p(i)logp(i)q(i)−∑p(i)+∑q(i)
是令 F(p)=∑p(i)logp(i)−∑p(i) 得到的。IS距离
DF(p,q)=∑i(p(i)q(i)−logp(i)q(i)−1)
是令 F(p)=−∑p(i) 得到的。