EWFCM属性权重正则化

作者 : wonderseen 
时间:2018/04/29

科研不易,谢绝转载~


        阿里计算机视觉二面,面试官指出我学的不够系统,于是我决定回炉重造,重头再整优化理论。我在实验室研究的理论是FCM,所以这里由FCM入手,陆续探究几种正则化降低算法复杂度上的原理。通过对FCM的解释,希望能够帮助你更容易地理解神经网络中正则化技术的原理。此篇,我通过整理2016年EWFCM论文内容,来谈属性权重与熵信息和FCM结合的正则化技术,论文地址:传送门

Fuzzy clustering with the entropy of attributeweights 

    论文提出EWFCM算法:the maximum-entropy-regularized weighted fuzzy c-means (EWFCM) minimizingthe dispersion within clusters and maximizing the entropy of attribute weightssimultaneously 最小化类内的散布程度,同时最大化属性权重熵。提出的算法核心是对非球形数据集的处理。并提出了以核处理改进的KEWFCM。

 

Section 1:

    Prototype-based partitioning clustering analysis,其中包括两种典型的FCM和k-means及其变体。但是缺点是用相同的权重去处理不同的特征进行分类。这在高纬数据簇中很不合适(理应稀疏)。

 

对于k-means而言,有:

1.     Desarbo 等人率先在k-means上进行了属性权重的方法(COSA)

2.     Jing 等人拓展了Friedmn的方法为高纬稀疏特征矩阵获得最佳权重属性。

3.     最近,Tsai 等人在k-means中提出了新奇的自适应调节机制,通过同时最小化簇内的分离并最大化簇之间的分离。


相比以上硬划分(k-means)的方法,FCM方法在当簇边界比较模糊的情况下效果好,同时,隶属度帮助我们对所有簇以及数据特征之间探索复杂的关系。

1.     Wang 等人用带权重的欧氏距离取代了统一的欧式距离权重

2.     Borgelt 提出了基于特征空间子集的簇分类,而不采用全部的数据特征空间。他是通过对提供信息少的特征直接赋值为0的方法实现的。不足之处是他们使用全部簇来计算属性权重,而不考虑单个簇。

3.     Keller 等人介绍了一种基础的属性权重的fcm算法,算法通过为每个数据维度都增加一个影响参数。在此基础上,Frigui 提出了一种寻找最优簇原型参数和最优特征权重的方法。

4.    近来,Deng 等人提出了一种改进的结合了类间和类内信息的子空间聚类方法。并在Feature interaction in subspace clustering using the Choquet integral 中提出了一个新颖的利用模糊测量度和choquet积分(此概念偏数学,目前不太能理解)的特征交互的子空间聚类算法。

5.     最后,Tang为基于权重的聚类技术作出了调查和总结。


目前为止,FCM还存在以下3个问题:

1.     没有好的权重分配的评判标准;

2.     评判标准中没有明确的物理定义;

3.     对于某些特征数据集而言,比如非球形数据集,目前的FCM还不能很好的处理簇分类问题。

    为了解决非球形数据集的分类问题,许多论文已经强调了引入核处理方法(kernel technique)的重要性。除此之外,与其他权重法不同的是,论文提出了最大化标准化熵权重法。我们在目标函数(objective function)中定义了标准化的属性权重熵。可以得到好的簇分类结果,而且重要的属性会被提取。


Section 2:

     该模糊聚类问题被认为最大化熵推理问题,以期找到全局数据的规律并从数据中获得最平滑的结构。目标函数结合了差距度量和额外的属性权重标准化熵

文章提到了要选择合适的

本文用常用的Picard迭代方法用来处理非线性分割问题。。

迭代过程:

1.     We first fix C and W and find necessaryconditions on U to minimize F(U)

2.     Then we fix W and U and minimize F(C) with respect to C

3.     Finally, we fix U and C and minimize F(W) withrespect to W.(此部分将在下面证明)

4.     直到满足迭代结束的要求:

复杂度评估:

1.     时间计算复杂度为O(TKNM),其中T是最大的迭代次数。

2.     空间复杂度为O(NM+2KM+KN),注意属性权重的维度是K*M,和中心点所需的维度一样。

U和C的表达式计算方法见:J.C. Bezdek, A convergence theorem for the fuzzy ISODATA clusteringalgorithms。在U和C都确定的情况下,通过上面W的求解方程就得到了使F(w)获得严格局部最小值的W,文章后面证明定理3会说明这个问题。

 

Theorem 3如果U和C确定后, 当且仅当W按照上述方式计算,W将是F(W)的局部最小点。

证明:

用拉格朗日乘子法解决这个非约束的最小化问题:

分解 成(decomposed into) k个独立问题:

相似的,通过求导求这些子问题的最小化:


再把11带入9,即可以得到前面W的表达式。

那么,我们已经知道(8)使一阶导为0,要证明定理3只需要证明带拉格朗日项的F(x)的海森矩阵正定即可。海森矩阵各项结果如下:

为严格正定对角矩阵,所以W是F(w)严格局部最小点。证毕。

 

Section 3:

对于非球形高纬数据集,需要考虑mercer kernel映射方法(J.H. Chiang, P.Y. Hao, Anew kernel-based fuzzy clustering approach: support vector clustering with cellgrowing)

【友情连接:mercer核】

  

核方法的本质是从原始的d维度空间中执行一个非线性映射Φ,映射到一个高纬度的核空间H。核空间的线性分类器可以用来解决高度非线性的原始特征空间(original feature space)。

核方法的优势在于:核空间的点积(dot products)可以描述为:

众所周知,Mercer核中一般用到高斯核 、多项式核 等。【友情链接:各种核函数的特点】

文章对EWFCM又提出了核方法的改进:KEWFCM,仅采用高斯核 ,并且进行解释。

和Section 2相同的方法使 可以求得:

根据Ckm和核映射关系

求得:

相同的,用Picard迭代法,得到得到KEWFCM的迭代表达式:    

 

Section 4: 

作者把EWFCMKEWFCM与已有的WFCMKFCMWFKCA进行实验比较。

RelevantOriginal Reference:

FCM: PatternRecognition with Fuzzy Objective Function Algorithms, Plenum, New York, 1981.

WFCM: Featureweighting and feature selection in fuzzy clustering, Proc. IEEE Conf. FuzzySyst. 1 (2008)

KFCM: Kernel-basedfuzzy clustering and fuzzy clustering: a comparative experimental study, FuzzySets Syst. 161 (2010)

WFKCA: Attributeweighted mercer kernel based fuzzy clustering algorithm for generalnon-spherical datasets, Soft Comput. 10 (2006)

 

实验细节:

1.     所有数据都被归一到0和1之间

2.     用UCI的数据集,与其他算法进行比较,说明了提出算法的有效性(verify theefficiency)

3.     为了更好的体现核方法的有效性,人工制作了非球形数据簇进行实验

4.     因为改进EWFCM的动机是更好地对高维度稀疏数据簇, 所以最后作者用the ReutersTranscribed text dataset来说明EWFCM 

5.     算法接口全为c++,运行环境3.4 GHz CPU and 4 GB 内。

6.     模糊系数(fuzzification coefficient)设置为2。

7.     迭代误差阈值设为2^-6。

8.     高斯核中的 在(2^-10, 2^5)之间调节。

9.     所有算法都在每个数据集上执行了100次,每次簇中心都保证是随机初始化。

10.   为了更直观的理解属性分布的物理特性,作者调查了Iris数据集的分布并用二维图依次显示Iris特征组合分布情况,体现Iris的某些维度更贴紧,比其他维度更重要,所以应该要赋予更高的属性权重。

 

性能比较:

1.     AIN(average iteration number):100次,可以用来比较优化速率

2.     ACR(average classification rate):100次,可以用来比较簇结构分类好坏(不就是准确率吗)

        理论来源:Kernel-basedfuzzy clustering and fuzzy clustering: a comparative experimental study

        ACR计算方法:Fuzzy clustering with weighting of data variables.

3.     ANMI(average normalized mutualinformation):归一化互信息,用来衡量两个簇分布的统计关系

        理论基础:a knowledge reuse framework for combining multiple partitions

 剩余的内容是实验说明其结果之优,这里没必要赘述了。

 

 

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值