你知道什么是核函数吗


核函数K(kernel function)就是指K(x, y) = <f(x), f(y)>,其中x和y是n维的输入值,f(·) 是从n维到m维的映射(通常,m>>n)。<x, y>是x和y的内积(inner product)(也称点积(dot product))。

一、常用核函数:

1.线性核函数 :
在这里插入图片描述
线性核函数(Linear Kernel)是多项式核函数的特例,优点是简洁,缺点是对线性不可分数据集没有解决办法。主要用于线性可分的情况,我们可以看到特征空间到输入空间的维度是一样的,其参数少速度快,对于线性可分数据,其分类效果很理想,因此我们通常首先尝试用线性核函数来做分类,看看效果如何,如果不行再尝试其他的。

2.多项式核函数:
在这里插入图片描述
多项式核函数(Polynomial Kernel)可以实现将低维的输入空间映射到高纬的特征空间,但是多项式核函数的参数多,当多项式的阶数比较高的时候,核矩阵的元素值将趋于无穷大或者无穷小,计算复杂度会大到无法计算。

3.高斯核函数(RBF)
在这里插入图片描述
高斯核函数(Gaussian Kernel)也叫径向基核函数(Radial Basis Function),是一种局部性强的核函数,该函数的形状为钟形曲线,参数\sigma控制曲线的宽度(胖瘦)。可以把输入特征向量扩展到无限维度的空间里。高斯核函数计算出来的值永远在0到1之间。其可以将一个样本映射到一个更高维的空间内,该核函数是应用最广的一个,无论大样本还是小样本都有比较好的性能,而且其相对于多项式核函数参数要少,因此大多数情况下在不知道用什么核函数的时候,优先使用高斯核函数。

4.sigmoid核函数
在这里插入图片描述
sigmoid核函数(Sigmoid Kernel),支持向量机实现的就是一种多层神经网络。

5.拉普拉斯核函数(Laplacian Kernel)
在这里插入图片描述

6.二次有理核函数(Rational Quadratic Kernel)

在这里插入图片描述

7.幂指数核函数(Exponential Kernel)

在这里插入图片描述

8.ANOVA核函数(ANOVA Kernel)
在这里插入图片描述

9.多元二次核函数(Multiquadric Kernel)
在这里插入图片描述

10.逆多元二次核函数(Inverse Multiquadric Kernel)
在这里插入图片描述

二、核函数特点:

 1)核函数的引入避免了“维数灾难”,大大减小了计算量。而输入空间的维数n对核函数矩阵无影响,因此,核函数方法可以有效处理高维输入。
 2)无需知道非线性变换函数Φ的形式和参数.
 3)核函数的形式和参数的变化会隐式地改变从输入空间到特征空间的映射,进而对特征空间的性质产生影响,最终改变各种核函数方法的性能。
 4)核函数方法可以和不同的算法相结合,形成多种不同的基于核函数技术的方法,且这两部分的设计可以单独进行,并可以为不同的应用选择不同的核函数和算法。

三、选择核函数的方法:

  • 如果特征的数量大到和样本数量差不多,则选用LR或者线性核的SVM;
  • 如果特征的数量小,样本的数量正常,则选用SVM+高斯核函数;
  • 如果特征的数量小,而样本的数量很大,则需要手工添加一些特征从而变成第一种情况。

在选用核函数的时候,如果我们对我们的数据有一定的先验知识,就利用先验来选择符合数据分布的核函数;如果不知道的话,通常使用交叉验证的方法,来试用不同的核函数,误差最下的即为效果最好的核函数,或者也可以将多个核函数结合起来,形成混合核函数。

四、核函数方法实施步骤:

核函数方法是一种模块化(Modularity)方法,它可分为核函数设计和算法设计两个部分,具体为:

1)收集和整理样本,并进行标准化;
2)选择或构造核函数;
3)用核函数将样本变换成为核函数矩阵,这一步相当于将输入数据通过非线性函数映射到高维特征空间;
4)在特征空间对核函数矩阵实施各种线性算法;
5)得到输入空间中的非线性模型。
显然,将样本数据核化成核函数矩阵是核函数方法中的关键。注意到核函数矩阵是l×l的对称矩阵,其中l为样本数。

五、核函数在模式识别中的应用:

1)新方法。主要用在基于结构风险最小化(Structural Risk Minimization,SRM)的SVM中。
2)传统方法改造。如核主元分析(kernel PCA)、核主元回归(kernel PCR)、核部分最小二乘法(kernel PLS)、核Fisher判别分析(Kernel Fisher Discriminator, KFD)、核独立主元分析(Kernel Independent Component Analysis,KICA)等,这些方法在模式识别等不同领域的应用中都表现了很好的性能。

六、核函数方法原理:

根据模式识别理论,低维空间线性不可分的模式通过非线性映射到高维特征空间则可能实现线性可分,但是如果直接采用这种技术在高维空间进行分类或回归,则存在确定非线性映射函数的形式和参数、特征空间维数等问题,而最大的障碍则是在高维特征空间运算时存在的“维数灾难”。采用核函数技术可以有效地解决这样问题。
设x,z∈X,X属于R(n)空间,非线性函数Φ实现输入间X到特征空间F的映射,其中F属于R(m),n<<m。根据核函数技术有:

K(x,z) =<Φ(x),Φ(z) >                (1)
其中:<, >为内积,K(x,z)为核函数。从式(1)可以看出,核函数将m维高维空间的内积运算转化为n维低维输入空间的核函数计算,从而巧妙地解决了在高维特征空间中计算的“维数灾难”等问题,从而为在高维特征空间解决复杂的分类或回归问题奠定了理论基础。
### 贝叶斯优化中代理模型的核函数 在贝叶斯优化过程中,代理模型通常由高斯过程(Gaussian Process, GP)构成。GP 是一种概率模型,能够捕捉输入变量之间的复杂关系并量化不确定性。为了定义两个数据点间的相似性程度以及影响范围,在高斯过程中引入了核函数(也称为协方差函数)。不同的核函数可以表达不同类型的平滑假设关于潜在的真实映射。 #### 常见的核函数及其特性 1. **平方指数核 (Squared Exponential Kernel)** 或径向基函数(RBF) 这种核是最常用的一种形式,因为它能很好地表示大多数实际场景下的连续变化情况。其特点是无限可微分和平滑过渡,适合于那些预期具有较高光滑性的目标函数建模[^3]。 ```python from sklearn.gaussian_process.kernels import RBF kernel = RBF(length_scale=1.0) ``` 2. **马特恩核 (Matérn Kernel)** 相比SE/RBF核,该类核提供了更灵活的方式去控制样本路径的粗糙度。参数ν决定了曲线的平滑水平;当ν趋向无穷大时接近SE核的效果。较小值则允许更加不规则的变化模式存在。 ```python from sklearn.gaussian_process.kernels import Matern kernel = Matern(nu=1.5) # nu can be set to other values like 0.5 or 2.5 etc. ``` 3. **周期性核 (Periodic Kernel)** 如果认为待估测的过程可能存在某种周期性质,则可以选择此核来进行描述。这有助于捕获时间序列或其他重复现象中存在的规律性成分。 ```python from sklearn.gaussian_process.kernels import ExpSineSquared kernel = ExpSineSquared() ``` 4. **线性核 (Linear Kernel)** 用于模拟简单的线性依赖结构。尽管不如上述几种常见,但在某些特定情况下仍然有用处,比如当我们知道或怀疑响应面呈现近似直线形态的时候。 ```python from sklearn.gaussian_process.kernels import DotProduct kernel = DotProduct() + WhiteKernel(noise_level=1) ``` 每种核都有各自的特点和适用场合,选择合适的核对于获得良好的代理模型至关重要。实践中往往需要根据具体的应用背景和个人经验做出判断,并可能涉及交叉验证等手段来挑选最优配置方案。
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

若年封尘

你的鼓励将是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值