DBSCAN算法
- 密度聚类方法的指导思想是,只要一个区域中的点的密度大于某个阈值就把它加到与之相近的聚类中去.
- 密度聚类方法的优点:可以克服基于距离的算法只能发现“类圆形”聚类的缺点,可以发现任意形状的聚类,它还对噪声数据不敏感。与传统的k-means相比,DBSCAN算法不需要输入划分的聚类个数;聚类簇的形状没有偏差;可以在需要时,输入过滤噪声的参数.还可以处理任意形状和大小的簇.
- 密度聚类方法的缺点:计算密度单元的计算复杂度大,需要建立空间索引来降低计算量,对数据维数的伸缩性比较差.
- 密度聚类的代表算法有DBSCAN算法,OPTICS算法,DENCLUE算法.
- 今天我们先介绍DBSCAN算法.
- -
DBSCAN算法设计思想:从数据中抽取一个未处理过的点,然后如果抽取的点是核心点,那么找出所有从该点密度可达的对象,形成一个簇;如果抽取的点是边缘点,那么跳出本次循环,寻找下一个对象.终止的条件,就是所有的点都被处理过.
下面,我举个例子来讲解DBSCAN算法
样本事物数据库
序号 | 属性1 | 属性2 |
---|---|---|
1 | 1 | 0 |
2 | 4 | 0 |
3 | 0 | 1 |