无监督学习相关知识点
文章目录
1 无监督学习的目标和性质
1.1 目标
无监督学习的目标:利用无标签的数据学习 数据的分布 或 数据与数据之间的关系 被称为无监督学习。
1.2 性质
无监督学习的性质:
(1) 有监督学习和无监督学习的最大区别在于数据是否有标签;
(2) 无监督学习最常应用的场景是聚类(clustering)和降维(Dimension Reduction)。
2 聚类(clustering)
聚类指的是根据数据的“相似性”将数据分为多类的过程。评估两个不同样本之间的相似性,通常使用的方法就是计算两个样本之间的“距离”。使用不同的方法计算样本间的距离会关系到聚类结果的好坏。
图1:聚类的结果表示
2.1 欧式距离
欧式距离是最常用的一种距离度量方法。计算公式表示如下: