On Saving Outliers for Better Clustering over Noisy Data

西西弗的小蚂蚁

已于 2024-04-09 11:58:23 修改

阅读量10

点赞数

分类专栏： DBSCAN算法层次聚类文章标签：聚类机器学习人工智能

于 2022-11-24 13:59:57 首次发布

本文链接：https://blog.csdn.net/zj_18706809267/article/details/128016703

版权

DBSCAN算法同时被 2 个专栏收录

33 篇文章 0 订阅

订阅专栏

层次聚类

16 篇文章 0 订阅

订阅专栏

On Saving Outliers for Better Clustering over Noisy Data

聚类通常会被错误分散注意力，从在线问卷到物联网中的传感器阅读，几乎所有领域都经常观察到错误。脏数据值不仅会使它们自身(对应的元组)偏离聚类中心，还会误导剩余元组的聚类，例如错误地将一个簇分成两个或扭曲簇中心。原因是传统的聚类方法要么简单地忽略异常值(如DBSCAN)，要么将它们分配到最接近的簇(如K-Means)。本文提出保留离群点以更好地聚类。其思想是调整异常值的错误值(通常最小)，以使其看起来正常。也就是说，调整值后的元组不再离群，因此将被聚类，而不会分散其他元组的注意力。通过值调整来保存异常值的设计适用于任何聚类方法(例如，DBSCAN或K-Means)。(2)给出了最优解的上界和下界;(3)设计了具有性能保证的近似算法。在具有真实离群点的数据集上的实验表明，与当前最先进的方法相比，所提方法具有更高的准确性。值得注意的是，保存离群点的调整数据确实显著改善了聚类，以及分类和记录匹配等其他应用。

我们观察导致异常值的属性数量，需要调整以成为内点。直观地说，只可能在某些属性中发生错误，例如，在风力涡轮机中包装的数百个传感器中，通常一次只有一个或几个传感器坏了。相比之下，自然离群点在大量属性中往往表现出可分离性。例如，来自另一个风电场或极端天气的点会与温度、风速、偏转角度等值都远离当前的观测值。

形式化了离群点保存问题，即在距离约束下调整值以实现更好的聚类(DISC)，并表明找到最小调整在定理1中是np -难的。我们捕获最佳调整的下界和上界。算法1在这些边界上设计了高效的剪枝和近似。特别地，我们证明了在命题7的某些设置下，近似算法是常数因子多项式时间近似。本文报告了对几个具有真实异常值的真实数据集的广泛实验评估。与DORC[45]等最新方法相比，DISC具有更好的聚类性能。值得注意的是，保存离群点不仅对聚类有显著的改善，而且对分类和记录匹配等其他应用也有显著的改善

总结：这篇论文很有趣的指出了，保留异常数据点实验聚类的场景。主要是在距离范围内保留异常点。因此对异常点的属性进行判断很重要。基于这个问题，文中提出上下界优化，来调整保留异常点的值到合理范围内。应该说这篇论文在问题背景和解决方法上都很明了。在其他基于异常点聚类问题上具有很好的借鉴性。

西西弗的小蚂蚁

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
On Saving Outliers for Better Clustering over Noisy Data

值得注意的是，保存离群点不仅对聚类有显著的改善，而且对分类和记录匹配等其他应用也有显著的改善。直观地说，只可能在某些属性中发生错误，例如，在风力涡轮机中包装的数百个传感器中，通常一次只有一个或几个传感器坏了。脏数据值不仅会使它们自身(对应的元组)偏离聚类中心，还会误导剩余元组的聚类，例如错误地将一个簇分成两个或扭曲簇中心。在具有真实离群点的数据集上的实验表明，与当前最先进的方法相比，所提方法具有更高的准确性。值得注意的是，保存离群点的调整数据确实显著改善了聚类，以及分类和记录匹配等其他应用。
复制链接

扫一扫