传统的特点和本算法的特色
传统的C-均值聚类算法,没有对样本特征进行优化,直接利用样本惊醒聚类,这样上述的这些方法的有效性很大程度的取决于样本的分布。
距离的选择
我们假定样本x被非线性函数der(x)映射到高维特征空间,那么,我的的欧几里得距离有:
distence(x,y) = sqrt( len( der(x) - der(y) ) ) = sqrt(der(x)*der(x) + der(y)*der(y) - 2*der(x)*der(y))
显然,如果我门令K(x_i,x_j) =der(x_i) .* der(x_y)的话,那么有:
distence(x,y) = sqrt( K(x,x) - 2*K(x,y) +K(y,y) );
这样我们就把非线性函数映射der为K(二元标量函数)了。
K函数的选择
这个部分理论比较深,我就简单给出几个好用的例子:
(1)多项式核函数:K(x,y) = (x.*y + 1)^d ;d为整数。
&#x