相关熵概念
相关熵(Correntropy)是一种度量两个随机变量相似度的方法
,最初由Jose Morelande和Robert Bogner在2003年的论文中提出。
不同于传统的相似度度量如均方误差(MSE),相关熵在处理非高斯噪声、脉冲噪声和异常值
时展现出更高的鲁棒性。
它基于核函数的概念,可以被看作是一种局部相似度度量。
相关熵的定义
给定两个随机变量 x x x和 y y y,其相关熵 V ( x , y ) V(x, y) V(x,y)定义为:
V ( x , y ) = E [ k ( x , y ) ] V(x, y) = E[k(x, y)] V(x,y)=E[k(x,y)]
其中
E
[
⋅
]
E[\cdot]
E[⋅]表示数学期望
,
k
(
x
,
y
)
k(x, y)
k(x,y)是一个核函数
,通常选择高斯核函数:
k σ ( x , y ) = exp ( − ∥ x − y ∥ 2 2 σ 2 ) k_\sigma(x, y) = \exp\left(-\frac{\|x - y\|^2}{2\sigma^2}\right) kσ(x,y)=exp(−2σ2∥x−y∥2)
这里的 σ \sigma σ是核的宽度参数,控制着核函数的形状。
相关熵的计算
在实际应用中,我们通常无法直接访问
随机变量
x
x
x和
y
y
y的概率分布
,而是拥有一组数据样本
{
(
x
i
,
y
i
)
}
i
=
1
N
\{(x_i, y_i)\}_{i=1}^N
{(xi,yi)}i=1N。因此,相关熵可以通过样本的平均值来估算:
V ( x , y ) ≈ 1 N ∑ i = 1 N k σ ( x i , y i ) V(x, y) \approx \frac{1}{N}\sum_{i=1}^N k_\sigma(x_i, y_i) V(x,y)≈N1i=1∑Nkσ(xi,yi)
相关熵的性质
-
鲁棒性:当两个样本相距非常远时,相关熵可以从数值上削弱两个样本的不相似度,因此具有较强的
鲁棒性
,能够处理各种非高斯噪声。 -
局部度量:对于小误差,相关熵近似于绝对误差,而对于由异常值引起的较大误差,相关熵的值接近于1,这意味着大误差对相关熵的影响有限。
相关熵的推广
相关熵度量被扩展为任意两个变量之间的相关性度量
(Correntropy Induced Metric, CIM):
C I M ( x , y ) = 1 − V ( x , y ) CIM(x, y) = \sqrt{1 - V(x, y)} CIM(x,y)=1−V(x,y)
CIM在误差相对较小的情况下近似于绝对误差,对于大误差,CIM的值接近于1,这说明其对大误差的敏感性较低,从而具有更好的鲁棒性。
相关熵的应用
相关熵和CIM被用于优化问题中,相关熵最大化等价于CIM最小化,
也被称为最大相关性准则(Maximum Correntropy Criterion, MCC)。
实验验证
为了展示相关熵在抑制非高斯噪声方面的有效性
,两个实验被设计:
-
回归实验:在三维空间中对含有
脉冲噪声
的采样点进行平面拟合,结果显示MCC的性能显著优于最小均方误差(MMSE)。 -
损失函数对比:比较了绝对误差( ℓ 1 \ell_1 ℓ1-norm)、均方误差( ℓ 2 \ell_2 ℓ2-norm)和CIM的性能,
CIM被证明能更好地处理较大的误差。
相关熵在子空间聚类中的作用
在子空间聚类模型中,相关熵被用来度量误差
,以增强模型对大规模破坏的鲁棒性。
它与Schatten p-范数正则化和“内核策略”一起,构成了鲁棒低秩核子空间聚类模型的核心组件,用于处理数据点的非线性结构和复杂噪声。
结论
相关熵作为一种局部相似度度量
,因其在处理非高斯噪声和异常值时的鲁棒性而在数据处理和机器学习领域得到了广泛应用。无论是作为相似度度量还是作为优化问题中的损失函数,相关熵都显示出其在复杂数据环境下提供更可靠和更准确结果的潜力。