希尔伯特-施密特独立性准则(Hilbert-Schmidt Independence Criterion-HSIC)的理解

这篇博客介绍了希尔伯特-施密特独立性准则(HSIC),用于衡量两个变量分布的差异。通过核函数处理非线性数据,HSIC揭示潜在的语义空间信息。文中详细阐述了HSIC的定义、协方差的计算以及与协方差的关系,并引用了Gretton等人的文献作为参考。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本章主要是对Gretton et al.文献的一个理解,仅供大家参考!如有疑问可以下方讨论留言。

希尔伯特-施密特独立性准则(Hilbert-Schmidt Independence Criterion-HSIC)主要目的是衡量两个变量的一个分布差异,这一点类似于协方差(方差),而对于其本身也是依赖于协方差而构建。如下公式(1)所示

                                                        (1)

其中Z(v)和Z(w)分别表示两个不同的视角数据集。每一个视角数据集都包含有n个样本数据点,其中可定义为

                                                          

其中

### 希尔伯特-施密特独立准则解释 希尔伯特-施密特独立准则是衡量两个随机变量之间依赖性的工具之一。该方法基于再生核希尔伯特空间(RKHS),通过计算不同特征映射下的协方差算子来评估两组数据间的相互关系强度[^1]。 具体来说,给定样本集 \(X\) 和 \(Y\) ,分别对应于输入域 \(\mathcal{X}\) 及输出域 \(\mathcal{Y}\),可以定义各自对应的 RKHS 中的均值嵌入函数: \[ m_X = E_{x\sim P}[k(x,\cdot)] \\ m_Y=E_{y\sim Q}[\ell(y,\cdot)] \] 其中 \(P,Q\) 表示概率分布;\( k:\mathcal{X}\times\mathcal{X}\to R , l:\mathcal{Y}\times\mathcal{Y}\to R \) 是正定核函数。接着引入交叉协方差算子 CXY : \[C_{XY}=E[(f(X)-m_X)\otimes(g(Y)-m_Y)]\] 这里 f,g 分别是从 X 到其关联 RKHS 的卡诺瓦变换。最终 HSIC 定义为上述算子范数平方根形式: \[HSIC(P,Q,F,G)=||C_{XY}||^2_F\] 当且仅当 X,Y 彼此统计独立时取零值。 ### 应用于机器学习领域中的实例 #### 特征选择 利用 HSIC 进行特征筛选能够有效识别那些对于目标预测最有价值的信息源。例如,在时间序列分析里,可以通过比较各时刻观测值与其他潜在影响因素之间的 HSIC 得分大小来进行降维处理,从而保留最具代表性和影响力的成分。 ```python from sklearn.feature_selection import SelectKBest from skfeature.function.similarity_based.hsic_lasso import hsic_lasso_score selector = SelectKBest(score_func=hsic_lasso_score, k='all') selected_features = selector.fit_transform(data_matrix, target_vector) ``` #### 因果推断 HSIC 同样适用于探索因果结构的任务当中。借助于此度量标准可以帮助区分直接效应与间接效应,并进一步构建合理的因果图模型以便更好地理解复杂系统的运作机制。
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值