摘要:
主要问题,给定多个来自相似分布的有标签训练数据集的情况下,对一个未标记的测试数据集进行分类。针对该问题提出一种无分布假设、基于核的方法。这种方法涉及识别一个适当的再生核希尔伯特空间,并在该空间上优化一个正则化的经验风险。
本文提出泛化误差分析,描述了通用核,并建立了所提方法的通用一致性。
再生核希尔伯特空间(RKHS):一种函数空间,具有特定的核函数和内积空间。在RKHS中,每个点对应一个函数,这些函数可以通过核函数来计算它们的内积。核函数是一个对称的正定函数,可度量函数之间俺的相似性。
INTRODUCTION
文章目的是当训练和测试分布相似时,存在某种模式,使得可以从边际分布学习到标签的映射关系。文中将这个问题称为学习边际预测器。
本文在没有测试标签可用的情况下,希望通过访问多个训练数据集,仍有可能获得关于“标记过程”的集体知识,并将其转移到测试分布中,故此提出一种无分布假设的基于核方法的学习边际预测器。在此,方法论被证明是一种一致的学习过程,即随着样本量N,
,
趋于无穷大,泛化误差趋向于最佳值。
预先定义:
X:特征空间,Y:要预测的标签空间
为简化阐述,假设这是一个二分类的设置,Y = {1,-1}。对于给定的分布PXY,将X的边缘分布PX简称为边缘分布,条件分布PXY(Y | X)称为后验分布
当训练和测试分布“相似”时,存在某种模式,使得可以从边缘分布学习到标签的映射,将这个学习问题称为学习边缘预测器。
定义决策函数在大小为
的测试样本上的平均泛化误差为:
:测试样本的平均损失
:是决策函数f在第i个测试样本上的预测结果
:表示测试分布,即观测空间X和输出空间Y上的联合分布概率
:
上的分布(描述可能数据的分布情况,即训练数据集和测试数据集的可能分布。通过考虑分布的分布,可以推断出最佳的决策函数,以在未标记的测试数据上进行准确的预测)
:测试样本,
,是第j个观测值
:表示测试分布P_T(X,Y)的nT个独立同分布样本的联合分布
方程1 计算决策函数 f 在各测试样本上的损失的平均值。该泛化误差的计算是在测试集上来进行的,并通过对测试分布P_T(X,Y)的随机样本进行平均来估计决策函数 f 的性能
决策函数的一般化误差(generalIzation error):
由公式1可得,广义误差取决于测试样本量nT,随着nT的增加,
将收敛于
。假设有一个无穷大的测试样本时,假设真实边际
:
考虑通用核算法
:核函数对应的RKHS
在这个定义中,目标是寻找一个决策函数f,使得它在
中最小化这个目标函数,这个函数平均每个任务的平均每个样本的损失
,加上正则化项
,
是范数的平方。
即,要求找到一个决策函数
,使得它在训练样本
上的经验损失最小,并且具有较小的范数(范数的大小可以被视为模型复杂度的度量,较小的范数对应较简单的模型),以避免过拟合。通过引入正则化项,平衡损失项和模型复杂度直接的权衡。
引入正则化:1. 防止过拟合。正则化项的引入可以限制模型复杂度,避免过度拟合数据。2. 控制模型复杂度。正则化项对模型的复杂度进行惩罚,促使模型选择具有较小范数的解。
核函数
:
:在
上的核函数,
:在X上的核函数
这个核函数由两部分组成,一个作用在
上的核函数
和一个作用子啊X上的核函数
。核函数k的值是通过分别对P1和P2进行核函数
的计算,以及对x1,x2进行核函数
的计算然后两部分相乘得到的。
这样处理的目的是将数据分布的信息(P1,P2)与关于数据特征的信息(x1,x2)分开处理,这样可以更加灵活的建模数据的特征和分布之间的关系
将分布的信息和数据特征信息分开:
- 灵活性,这样可以对特征和分布之间的关系进行独立建模,可以选择适合特征空间和适合分布空间的核函数,分别对他们进行建模,可以更好地捕捉他们各自的特点和重要性,从而更好地适应不同类型的数据和问题
- 降低计算复杂度,在实际应用中,特征空间和分布空间的维度可能非常高,直接在高维空间中计算核函数的值会带来很大的计算开销。将核函数分解为两个部分后,我们可以在特征空间和分布空间分别进行计算,降低了计算的复杂度,并且可以利用一些特定的算法和技巧来加速计算过程。
- 独立性假设,即假设特征和分布之间是相互独立的,它们的关系可以通过乘积形式的核函数来建模,通过独立建模特征和分布,可以更好地理解她们各自对预测的贡献
映射
:
:是由核函数
生成的一个希尔伯特空间
对于给定的
,
的作用是通过对X上的积分来计算一个函数。该函数在X上的每个点上的取值是关于
的加权平均。具体来说,对于每个
,
是通过对
在X上进行积分得到的值。
这个映射表明,当核函数
具有普遍性时,即能够逼近任意函数,那么映射是一个单射,即不同的
对应于不同的函数
,从而保证了
的唯一性。这种单射性的性质确保了通过
将
映射到希尔伯特空间时的信息的完整性。
如果单纯考虑
,这个核函数是线性的,不能成为一个普遍核函数,因此引入另一个在
上的核函数
这个新的核函数,作用在
上,
映射将概率分布
和
映射到
上定义了一个度量函数。通过将
和
作为输入,可以使用核函数
来计算它们之间的相似度或距离
通过使用核函数
在
上进行计算,在
上定义一个更一般的核函数
,它不是线性的,是基于
中函数之间的相似度。这样就可以利用
中的结构来建模
上的核函数,从而提高建模的灵活性和表达能力
因为
样本之间存在一定的相关性或以来关系,既不是独立同分布的也不是独立的,这使得分析广义误差(generalization error)具有挑战性。故此,提出广义误差界。
广义误差界能够在
空间中对属于函数球的函数进行均匀估计误差控制。函数球表示一组函数,这些函数在
空间中以某个中心为球心,以某个半径为界限构成的球内。
为了简化分析,假设所有训练样本的大小
,让
表示核函数k的RKHS中以原点为中心,半径为r的闭球
函数球:指在核希尔伯特空间中以某个中心为球心、以某个半径为界限形成的球。在这里引入函数球是为了分析算法的一致性和估计误差控制。一致性是当样本数量趋于无穷时,算法能够以高概率对目标函数进行准确的估计。函数球的引入提供了一种工具,用于描述函数空间中的函数集合,并限制了估计误差的范围。通过控制函数球的半径和函数球中的函数数量,可以推导出算法一致性结果。此外,函数球的引入还可以对函数空间中的函数进行统一的估计误差分析。通过建立函数球的界限,可以确保算法对函数空间中的各个函数具有一致的估计误差控制性质。
loss:
Kernels-A:
核函数
,
,
分别受到常数
,
和
的界限,其中
。这些核函数的取值在一定的范围内,不会超过这些界限。
与
相关的规范特征映射
,这个特征映射将输入空间
映射到了特征空间
。其中,规范特征映射满足了一个Holder条件,该条件是关于阶数
和常数
的。具体来说,对于在
范围内的任意两个向量v和w,Holder条件保证了特征映射输出的差距在一定程度上受到输入向量的差距的控制,表示为:
上式为规范特征映射的Holder条件(用于描述函数的保持性质,即函数值之间的差异如何随着输入的变化而变化),这个条件限制了特征映射的变化程度,使得输入向量的小变化只会引起输出向量的有限变化。
表示特征映射输出的向量之间的差距,即特征向量
和
之间的欧氏距离或其他距离度量。这个差距用来衡量特征映射输出的变化程度。
:表示输入向量v,w之间的差距,其中
是一个介于0和1之间的阶数。这个差距用老衡量输入向量的变化程度,并通过调整
的幂次来调整其影响。
这个不等式的含义是,特征映射输出的变化程度是受到输入变量之间差距的控制的。常数
表示了特征映射的Holder条件的强度,它控制了特征向量之间的差距与输入向量之间差距的比例关系。即,输出向量的差距较小时,特征映射输出的差距也较小,且差距的大小受到输入向量差距的
次幂和常数
的限制。这种保持性质对于许多机器学习算法和优化问题中的核方法具有重要意义,因为它确保了特征映射的稳定性和一致性。
定理5.1:统一估计误差控制
假设条件(loss)和公式9(核函数-A)成立,如果
是从
独立同分布得到的实现,对于每个i = 1,。。。。N,样本
由从
独立同分布得到的实现组成,则对于任意R>0,至少以概率
成立:
其中,c是数值常数,
表示
的半径为R的球
:表示在半径为R的球
中取函数f的最大值,即取所有在
空间中以半径R为界的函数f的最大值
:表示函数f在输入样本点
上的预测值与对应的真实标签
之间的差距
:表示函数f的期望(或平均值),其中∞表示对所有可能的输入进行平均(上文一般化误差)
c:是一个常数,用于控制估计误差的上界
:是一个与半径R、核函数的有界性
、常数L相关的项,用于限制函数空间的范围
:样本数量N的对数,用于调节样本量对估计误差的影响
:用于调节估计误差的置信水平
n:每个样本集合Si的样本数量
:介于0和1之间的阶数,用于调节输入样本之间的差距对估计误差的影响
:与样本数量N相关的项,用于调节样本数量对估计误差的影响
:调节核函数的性质对估计误差的影响
公式描述了定理5.1中的统一估计误差控制的上界,说明在满足一定条件下,使用从相同分布中独立同分布的样本,可以通过控制不同因素的影响来限制估计误差的大小
定理5.2:
设Ω、
是两个紧致空间,k、k’分别是定义在Ω、
上的两个核函数。如果k、k’都是普遍核函数,那么乘积核函数:
在Ω、
上也是普遍核函数。
Ω、
分别是两个紧致空间,可以理解为输入空间的两个部分;k、k’是定义在Ω和
上的核函数,它们可以分别度量Ω和
中输入样本之间的相似性。如果k、k’都是普遍核函数,那么乘积核函数
也是普遍核函数,即它可以度量Ω、
中输入样本之间的相似性。
在欧几里得空间上已经知道了几个普遍核函数的例子,我们还需要在
上的普遍核函数。核函数和特征空间还需要一些额外的假设:
Kernels-B:
,
,
和
满足以下条件:
是一个紧致空间(具有紧致性和度量性质的空间,可以是输入空间或特征空间);
在
上是普遍核函数(度量X中输入样本之间的相似性);
在
上是连续且普遍核函数(度量X中输入样本之间的相似性);
在
的任意紧致子集上是普遍核函数(
是通过使用核函数
对X进行映射后得到的希尔伯特空间,
度量
中自己之间的相似性)
定理5.3(普遍核函数):
假设满足Kernels-B,那么对于定义如式(6)的
,乘积核函数
在
上是普遍的。此外,如果
的形式为(8),其中
是具有正的泰勒级数系数得解析函数,或者
是与这样的核函数相关联得归一化核函数,则满足
的假设。
比如:假设
是
的一个紧致子集,令
和
分别是
上的高斯核函数。取
则可得
在
上是普遍的。通过类似于有限维情况的推理,高斯类似核函数
也在
上是普遍的,因此,乘积核函数是普遍的。
推论5.4(普遍一致性):
假设满足条件:Loss,Kernels-A,Kernels-B。假设N,n以一种使得
(γ>0)的方式增长到无穷大。那么,如果
是一个序列,使得
且
,则有
在概率上成立。
这个推论说明,在满足一定条件的情况下,对于随着样品数量N和维度n增长到无穷大的情况,通过选择适当的序列
,可以实现普遍一致性。其中,
是一个趋近于零的序列且满足
。推论表明,对于定义在
上的函数f,当样本数量N和维度n趋于无穷大时,期望值
趋向于在定义域
上的所有函数f中的下确界。
这个结果表明,在满足一定条件的情况下,通过适当选择
序列,可以实现普遍一致性,即在样本数量和维度增长的情况下,模型的期望损失趋近于定义域上所有函数的最小值。