作者 : wonderseen
时间:2018/04/29
科研不易,谢绝转载~
阿里计算机视觉二面,面试官指出我学的不够系统,于是我决定回炉重造,重头再整优化理论。我在实验室研究的理论是FCM,所以这里由FCM入手,陆续探究几种正则化降低算法复杂度上的原理。通过对FCM的解释,希望能够帮助你更容易地理解神经网络中正则化技术的原理。此篇,我通过整理2016年EWFCM论文内容,来谈属性权重与熵信息和FCM结合的正则化技术,论文地址:传送门。
Fuzzy clustering with the entropy of attributeweights
论文提出EWFCM算法:the maximum-entropy-regularized weighted fuzzy c-means (EWFCM) minimizingthe dispersion within clusters and maximizing the entropy of attribute weightssimultaneously 最小化类内的散布程度,同时最大化属性权重熵。提出的算法核心是对非球形数据集的处理。并提出了以核处理改进的KEWFCM。
Section 1:
Prototype-based partitioning clustering analysis,其中包括两种典型的FCM和k-means及其变体。但是缺点是用相同的权重去处理不同的特征进行分类。这在高纬数据簇中很不合适(理应稀疏)。
对于k-means而言,有:
1. Desarbo 等人率先在k-means上进行了属性权重的方法(COSA)
2. Jing 等人拓展了Friedmn的方法为高纬稀疏特征矩阵获得最佳权重属性。
3. 最近,Tsai 等人在k-means中提出了新奇的自适应调节机制,通过同时最小化簇内的分离并最大化簇之间的分离。
相比以上硬划分(k-means)的方法,FCM方法在当簇边界比较模糊的情况下效果好,同时,隶属度帮助我们对所有簇以及数据特征之间探索复杂的关系。
1. Wang 等人用带权重的欧氏距离取代了统一的欧式距离权重
2. Borgelt 提出了基于特征空间子集的簇分类,而不采用全部的数据特征空间。他是通过对提供信息少的特征直接赋值为0的方法实现的。不足之处是他们使用全部簇来计算属性权重,而不考虑单个簇。
3. Keller 等人介绍了一种基础的属性权重的fcm算法,算法通过为每个数据维度都增加一个影响参数。在此基础上,Frigui 提出了一种寻找最优簇原型参数和最优特征权重的方法。
4. 近来,Deng 等人提出了一种改进的结合了类间和类内信息的子空间聚类方法。并在Feature interaction in subspace clustering using the Choquet integral 中提出了一个新颖的利用模糊测量度和choquet积分(此概念偏数学,目前不太能理解)的特征交互的子空间聚类算法。
5. 最后,Tang为基于权重的聚类技术作出了调查和总结。
目前为止,FCM还存在以下3个问题:
1. 没有好的权重分配的评判标准;
2. 评判标准中没有明确的物理定义;
3. 对于某些特征数据集而言,比如非球形数据集,目前的FCM还不能很好的处理簇分类问题。
为了解决非球形数据集的分类问题,许多论文已经强调了引入核处理方法(kernel technique)的重要性。除此之外,与其他权重法不同的是,论文提出了最大化标准化熵权重法。我们在目标函数(objective function)中定义了标准化的属性权重熵。可以得到好的簇分类结果,而且重要的属性会被提取。
Section 2:
该模糊聚类问题被认为最大化熵推理问题,以期找到全局数据的规律并从数据中获得最平滑的结构。目标函数结合了差距度量和额外的属性权重标准化熵。
文章提到了要选择合适的 。
本文用常用的Picard迭代方法用来处理非线性分割问题。。
迭代过程:
1. We first fix C and W and find necessaryconditions on U to minimize F(U)
2. Then we fix W and U and minimize F(C) with respect to C
3. Finally, we fix U and C and minimize F(W) withrespect to W.(此部分将在下面证明)
4. 直到满足迭代结束的要求:
复杂度评估:
1. 时间计算复杂度为O(TKNM),其中T是最大的迭代次数。
2. 空间复杂度为O(NM+2KM+KN),注意属性权重的维度是K*M,和中心点所需的维度一样。
U和C的表达式计算方法见:J.C. Bezdek, A convergence theorem for the fuzzy ISODATA clusteringalgorithms。在U和C都确定的情况下,通过上面W的求解方程就得到了使F(w)获得严格局部最小值的W,文章后面证明定理3会说明这个问题。
Theorem 3:如果U和C确定后, 当且仅当W按照上述方式计算,W将是F(W)的局部最小点。
证明:
用拉格朗日乘子法解决这个非约束的最小化问题:
分解 成(decomposed into) k个独立问题:
相似的,通过求导求这些子问题的最小化:
再把11带入9,即可以得到前面W的表达式。
那么,我们已经知道(8)使一阶导为0,要证明定理3只需要证明带拉格朗日项的F(x)的海森矩阵正定即可。海森矩阵各项结果如下:
为严格正定对角矩阵,所以W是F(w)严格局部最小点。证毕。
Section 3:
对于非球形高纬数据集,需要考虑mercer kernel映射方法(J.H. Chiang, P.Y. Hao, Anew kernel-based fuzzy clustering approach: support vector clustering with cellgrowing)
核方法的本质是从原始的d维度空间中执行一个非线性映射Φ,映射到一个高纬度的核空间H。核空间的线性分类器可以用来解决高度非线性的原始特征空间(original feature space)。
核方法的优势在于:核空间的点积(dot products)可以描述为:
众所周知,Mercer核中一般用到高斯核 、多项式核 等。【友情链接:各种核函数的特点】
文章对EWFCM又提出了核方法的改进:KEWFCM,仅采用高斯核 ,并且进行解释。
和Section 2相同的方法使 可以求得:
根据Ckm和核映射关系
求得:
相同的,用Picard迭代法,得到得到KEWFCM的迭代表达式:
Section 4:
作者把EWFCM和KEWFCM与已有的WFCM、KFCM、WFKCA进行实验比较。
RelevantOriginal Reference:
FCM: PatternRecognition with Fuzzy Objective Function Algorithms, Plenum, New York, 1981.
WFCM: Featureweighting and feature selection in fuzzy clustering, Proc. IEEE Conf. FuzzySyst. 1 (2008)
KFCM: Kernel-basedfuzzy clustering and fuzzy clustering: a comparative experimental study, FuzzySets Syst. 161 (2010)
WFKCA: Attributeweighted mercer kernel based fuzzy clustering algorithm for generalnon-spherical datasets, Soft Comput. 10 (2006)
实验细节:
1. 所有数据都被归一到0和1之间
2. 用UCI的数据集,与其他算法进行比较,说明了提出算法的有效性(verify theefficiency)
3. 为了更好的体现核方法的有效性,人工制作了非球形数据簇进行实验
4. 因为改进EWFCM的动机是更好地对高维度稀疏数据簇, 所以最后作者用the ReutersTranscribed text dataset来说明EWFCM
5. 算法接口全为c++,运行环境3.4 GHz CPU and 4 GB 内。
6. 模糊系数(fuzzification coefficient)设置为2。
7. 迭代误差阈值设为2^-6。
8. 高斯核中的 在(2^-10, 2^5)之间调节。
9. 所有算法都在每个数据集上执行了100次,每次簇中心都保证是随机初始化。
10. 为了更直观的理解属性分布的物理特性,作者调查了Iris数据集的分布并用二维图依次显示Iris特征组合分布情况,体现Iris的某些维度更贴紧,比其他维度更重要,所以应该要赋予更高的属性权重。
性能比较:
1. AIN(average iteration number):100次,可以用来比较优化速率
2. ACR(average classification rate):100次,可以用来比较簇结构分类好坏(不就是准确率吗)
理论来源:Kernel-basedfuzzy clustering and fuzzy clustering: a comparative experimental study
ACR计算方法:Fuzzy clustering with weighting of data variables.
3. ANMI(average normalized mutualinformation):归一化互信息,用来衡量两个簇分布的统计关系
理论基础:a knowledge reuse framework for combining multiple partitions
剩余的内容是实验说明其结果之优,这里没必要赘述了。