On Saving Outliers for Better Clustering over Noisy Data

On Saving Outliers for Better Clustering over Noisy Data

聚类通常会被错误分散注意力,从在线问卷到物联网中的传感器阅读,几乎所有领域都经常观察到错误。脏数据值不仅会使它们自身(对应的元组)偏离聚类中心,还会误导剩余元组的聚类,例如错误地将一个簇分成两个或扭曲簇中心。原因是传统的聚类方法要么简单地忽略异常值(如DBSCAN),要么将它们分配到最接近的簇(如K-Means)。本文提出保留离群点以更好地聚类。其思想是调整异常值的错误值(通常最小),以使其看起来正常。也就是说,调整值后的元组不再离群,因此将被聚类,而不会分散其他元组的注意力通过值调整来保存异常值的设计适用于任何聚类方法(例如,DBSCAN或K-Means)。(2)给出了最优解的上界和下界;(3)设计了具有性能保证的近似算法。在具有真实离群点的数据集上的实验表明,与当前最先进的方法相比,所提方法具有更高的准确性。值得注意的是,保存离群点的调整数据确实显著改善了聚类,以及分类和记录匹配等其他应用。 

 我们观察导致异常值的属性数量,需要调整以成为内点。直观地说,只可能在某些属性中发生错误,例如,在风力涡轮机中包装的数百个传感器中,通常一次只有一个或几个传感器坏了。相比之下,自然离群点在大量属性中往往表现出可分离性。例如,来自另一个风电场或极端天气的点会与温度、风速、偏转角度等值都远离当前的观测值。

 

 形式化了离群点保存问题,即在距离约束下调整值以实现更好的聚类(DISC),并表明找到最小调整在定理1中是np -难的。我们捕获最佳调整的下界和上界。算法1在这些边界上设计了高效的剪枝和近似。特别地,我们证明了在命题7的某些设置下,近似算法是常数因子多项式时间近似。本文报告了对几个具有真实异常值的真实数据集的广泛实验评估。与DORC[45]等最新方法相比,DISC具有更好的聚类性能。值得注意的是,保存离群点不仅对聚类有显著的改善,而且对分类和记录匹配等其他应用也有显著的改善

 

 

 总结:这篇论文很有趣的指出了,保留异常数据点实验聚类的场景。主要是在距离范围内保留异常点。因此对异常点的属性进行判断很重要。基于这个问题,文中提出上下界优化,来调整保留异常点的值到合理范围内。应该说这篇论文在问题背景和解决方法上都很明了。在其他基于异常点聚类问题上具有很好的借鉴性。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值