WHERE-聚类方法的介绍与实现

最新推荐文章于 2022-05-11 23:41:44 发布

置顶

whu_谢宇

最新推荐文章于 2022-05-11 23:41:44 发布

阅读量374

点赞数

分类专栏：软件缺陷预测文章标签：聚类方法 WHERE 机器学习软件缺陷预测

本文链接：https://blog.csdn.net/ylxieyu/article/details/84327357

版权

本文介绍了WHERE聚类方法，这是一种适用于高维数据的算法，包括降维、划分和合并三个步骤。在软件缺陷预测中，WHERE方法用于对数据集聚类，每个聚类使用分类器训练，提高预测准确性。通过对数据分布的适应，缓解了泛化能力下降的问题。

摘要由CSDN通过智能技术生成

聚类方法的基本介绍

聚类是将数据对象的集合分成相似的对象类的过程。使得同一个簇（或类）中的对象之间具有较高的相似性，而不同簇中的对象具有较高的相异性。

在这里插入图片描述

聚类的一般过程为：
在这里插入图片描述

按照聚类分析方法的主要思路，聚类可以归纳为以下几种

方法	算法举例
划分法	k-means、k-中值
层次法	DIANA、AGNES、BIRCH、CURE、ROCK
密度法	DBSCAN、OPTICS、
网格法	STING、WaveCluster、CLIQUE
模型法	EM、COBWEB、

本篇文章所讲的WHERE 算法属于基于划分的聚类。

WHERE

WHERE 方法对于高维（特征属性个数>2）的数据，首先会进行降维处理，将高维数据映射到二维空间。该映射过程为：

从数据集中随机找到一个实例Z
找到距离Z最远的实例X
再找到距离X最远的实例Y

找到了上述3个点后，便可以得到一个固定的距离 $\overline{XY}$ ，记为c。此后，对于数据集中的任一样本实例，都可以计算出其与X、Y的距离，记为a、b。现在便可以用余弦公式得到样本实例的二维坐标点(x, y)
$\left(a^2 + c^2 - b^2\right) / \left(2c\right)\\y = \sqrt{a^2 - x^2}$