EWFCM属性权重正则化

最新推荐文章于 2022-07-17 20:16:17 发布

WS0

最新推荐文章于 2022-07-17 20:16:17 发布

阅读量1.1k

点赞数 4

文章标签：正则化

本文链接：https://blog.csdn.net/wonderseen/article/details/80144841

版权

作者 : wonderseen
时间：2018/04/29

科研不易，谢绝转载~

阿里计算机视觉二面，面试官指出我学的不够系统，于是我决定回炉重造，重头再整优化理论。我在实验室研究的理论是FCM，所以这里由FCM入手，陆续探究几种正则化降低算法复杂度上的原理。通过对FCM的解释，希望能够帮助你更容易地理解神经网络中正则化技术的原理。此篇，我通过整理2016年EWFCM论文内容，来谈属性权重与熵信息和FCM结合的正则化技术，论文地址：传送门。

Fuzzy clustering with the entropy of attributeweights

论文提出EWFCM算法：the maximum-entropy-regularized weighted fuzzy c-means (EWFCM) minimizingthe dispersion within clusters and maximizing the entropy of attribute weightssimultaneously 最小化类内的散布程度，同时最大化属性权重熵。提出的算法核心是对非球形数据集的处理。并提出了以核处理改进的KEWFCM。

Section 1：

Prototype-based partitioning clustering analysis，其中包括两种典型的FCM和k-means及其变体。但是缺点是用相同的权重去处理不同的特征进行分类。这在高纬数据簇中很不合适（理应稀疏）。

对于k-means而言，有：

1. Desarbo 等人率先在k-means上进行了属性权重的方法（COSA）

2. Jing 等人拓展了Friedmn的方法为高纬稀疏特征矩阵获得最佳权重属性。

3. 最近，Tsai 等人在k-means中提出了新奇的自适应调节机制，通过同时最小化簇内的分离并最大化簇之间的分离。

相比以上硬划分（k-means）的方法，FCM方法在当簇边界比较模糊的情况下效果好，同时，隶属度帮助我们对所有簇以及数据特征之间探索复杂的关系。

1. Wang 等人用带权重的欧氏距离取代了统一的欧式距离权重

2. Borgelt 提出了基于特征空间子集的簇分类，而不采用全部的数据特征空间。他是通过对提供信息少的特征直接赋值为0的方法实现的。不足之处是他们使用全部簇来计算属性权重，而不考虑单个簇。

3. Keller 等人介绍了一种基础的属性权重的fcm算法，算法通过为每个数据维度都增加一个影响参数。在此基础上，Frigui 提出了一种寻找最优簇原型参数和最优特征权重的方法。

4. 近来，Deng 等人提出了一种改进的结合了类间和类内信息的子空间聚类方法。并在Feature interaction in subspace clustering using the Choquet integral 中提出了一个新颖的利用模糊测量度和choquet积分（此概念偏数学，目前不太能理解）的特征交互的子空间聚类算法。

5. 最后，Tang为基于权重的聚类技术作出了调查和总结。

目前为止，FCM还存在以下3个问题：

1. 没有好的权重分配的评判标准；

2. 评判标准中没有明确的物理定义；

3. 对于某些特征数据集而言，比如非球形数据集，目前的FCM还不能很好的处理簇分类问题。

为了解决非球形数据集的分类问题，许多论文已经强调了引入核处理方法（kernel technique）的重要性。除此之外，与其他权重法不同的是，论文提出了最大化标准化熵权重法。我们在目标函数（objective function）中定义了标准化的属性权重熵。可以得到好的簇分类结果，而且重要的属性会被提取。

Section 2：

该模糊聚类问题被认为最大化熵推理问题，以期找到全局数据的规律并从数据中获得最平滑的结构。目标函数结合了差距度量和额外的属性权重标准化熵。

文章提到了要选择合适的。

本文用常用的Picard迭代方法用来处理非线性分割问题。。

迭代过程：

1. We first fix C and W and find necessaryconditions on U to minimize F(U)

2. Then we fix W and U and minimize F(C) with respect to C

3. Finally, we fix U and C and minimize F(W) withrespect to W.（此部分将在下面证明）

4. 直到满足迭代结束的要求：

复杂度评估：

1. 时间计算复杂度为O（TKNM），其中T是最大的迭代次数。

2. 空间复杂度为O(NM+2KM+KN)，注意属性权重的维度是K*M，和中心点所需的维度一样。

U和C的表达式计算方法见：J.C. Bezdek, A convergence theorem for the fuzzy ISODATA clusteringalgorithms。在U和C都确定的情况下，通过上面W的求解方程就得到了使F（w）获得严格局部最小值的W，文章后面证明定理3会说明这个问题。

Theorem 3：如果U和C确定后, 当且仅当W按照上述方式计算，W将是F(W)的局部最小点。

证明：

用拉格朗日乘子法解决这个非约束的最小化问题：

分解成（decomposed into） k个独立问题：

相似的，通过求导求这些子问题的最小化：

再把11带入9，即可以得到前面W的表达式。

那么，我们已经知道(8)使一阶导为0，要证明定理3只需要证明带拉格朗日项的F（x）的海森矩阵正定即可。海森矩阵各项结果如下：

为严格正定对角矩阵，所以W是F（w）严格局部最小点。证毕。

Section 3：

对于非球形高纬数据集，需要考虑mercer kernel映射方法（J.H. Chiang, P.Y. Hao, Anew kernel-based fuzzy clustering approach: support vector clustering with cellgrowing）

【友情连接：mercer核】

核方法的本质是从原始的d维度空间中执行一个非线性映射Φ，映射到一个高纬度的核空间H。核空间的线性分类器可以用来解决高度非线性的原始特征空间（original feature space）。

核方法的优势在于：核空间的点积(dot products)可以描述为:

众所周知，Mercer核中一般用到高斯核、多项式核等。【友情链接：各种核函数的特点】

文章对EWFCM又提出了核方法的改进：KEWFCM，仅采用高斯核，并且进行解释。

和Section 2相同的方法使可以求得：

根据Ckm和核映射关系

求得：

相同的，用Picard迭代法，得到得到KEWFCM的迭代表达式：

Section 4：

作者把EWFCM和KEWFCM与已有的WFCM、KFCM、WFKCA进行实验比较。

RelevantOriginal Reference:

FCM: PatternRecognition with Fuzzy Objective Function Algorithms, Plenum, New York, 1981.

WFCM: Featureweighting and feature selection in fuzzy clustering, Proc. IEEE Conf. FuzzySyst. 1 (2008)

KFCM: Kernel-basedfuzzy clustering and fuzzy clustering: a comparative experimental study, FuzzySets Syst. 161 (2010)

WFKCA: Attributeweighted mercer kernel based fuzzy clustering algorithm for generalnon-spherical datasets, Soft Comput. 10 (2006)

实验细节：

1. 所有数据都被归一到0和1之间

2. 用UCI的数据集，与其他算法进行比较，说明了提出算法的有效性（verify theefficiency）

3. 为了更好的体现核方法的有效性，人工制作了非球形数据簇进行实验

4. 因为改进EWFCM的动机是更好地对高维度稀疏数据簇，所以最后作者用the ReutersTranscribed text dataset来说明EWFCM

5. 算法接口全为c++，运行环境3.4 GHz CPU and 4 GB 内。

6. 模糊系数（fuzzification coefficient）设置为2。

7. 迭代误差阈值设为2^-6。

8. 高斯核中的在（2^-10, 2^5）之间调节。

9. 所有算法都在每个数据集上执行了100次，每次簇中心都保证是随机初始化。

10. 为了更直观的理解属性分布的物理特性，作者调查了Iris数据集的分布并用二维图依次显示Iris特征组合分布情况，体现Iris的某些维度更贴紧，比其他维度更重要，所以应该要赋予更高的属性权重。

性能比较：

1. AIN（average iteration number）：100次，可以用来比较优化速率

2. ACR（average classification rate）：100次，可以用来比较簇结构分类好坏（不就是准确率吗）

理论来源：Kernel-basedfuzzy clustering and fuzzy clustering: a comparative experimental study

ACR计算方法：Fuzzy clustering with weighting of data variables.

3. ANMI（average normalized mutualinformation）：归一化互信息，用来衡量两个簇分布的统计关系

理论基础：a knowledge reuse framework for combining multiple partitions

剩余的内容是实验说明其结果之优，这里没必要赘述了。

WS0

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
7
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫