机器学习算法七：常见的聚类算法

最新推荐文章于 2023-07-15 12:03:21 发布

～～～霞

最新推荐文章于 2023-07-15 12:03:21 发布

阅读量765

点赞数

文章标签： python kmeans 聚类算法

本文链接：https://blog.csdn.net/zhx111111111/article/details/119410834

版权

基于sklearn框架使用：

2.基于密度聚类算法：从样本密度的角度来考察样本之间的可连接性，并基于可连接样本不断扩展聚类簇，以获取最终聚类结果。

核心思想：先发现密度较高的点，然后把相近的高密度点逐步都连成一片，进而生成各种簇。

原理：

对每个数据点为圆心，以eps为半径画个圈（称为邻域eps-neigbourhood），然后数有多少个点在这个圈内，这个数就是该点密度值。
然后选取一个密度阈值MinPts，如圈内点数小于MinPts的圆心点为低密度的点，而大于或等于MinPts的圆心点高密度的点（称为核心点Core point）。
如果有一个高密度的点在另一个高密度的点的圈内，把这两个点连接起来，并将其串联起来。之后，如果有低密度的点也在高密度的点的圈内，把它也连到最近的高密度点上，称之为边界点。
把所有能连到一起的点聚类成为一个簇，而不在任何高密度点的圈内的低密度点就是异常点。

3.经典的降维方法线性判别分析（Linear Discriminant Analysis,简称LDA）：

在自然语言处理领域中，LDA指隐狄利克雷分布，是一种处理文档的主题模型。

LDA(线性判别分析)：是一种监督学习的降维技术；数据集每个样本均有类别输出；PCA是不考虑样本类别输出的无监督降维技术。

算法流程：

LDA与PCA间的异同点：

相同点

不同点

1）两者均可以对数据进行降维。

2）两者在降维时均使用了矩阵特征分解的思想。

3）两者都假设数据符合高斯分布。

1）LDA是有监督的降维方法，而PCA是无监督的降维方法

2）LDA降维最多降到类别数k-1的维数，而PCA没有这个限制。

3）LDA除了可以用于降维，还可以用于分类。

4）LDA选择分类性能最好的投影方向，而PCA选择样本点投影具有最大方差的方向。

关注