聚类算法---引言

最新推荐文章于 2024-08-16 15:56:31 发布

小葵向前冲

最新推荐文章于 2024-08-16 15:56:31 发布

阅读量713

点赞数

分类专栏：机器学习文章标签：机器学习算法数学基础线性代数

本文链接：https://blog.csdn.net/weixin_44177594/article/details/124043811

版权

机器学习专栏收录该内容

24 篇文章 10 订阅

订阅专栏

提示：这些是自己整理可以借鉴也可能存在错误欢迎指正

聚类算法--引言

聚类

参考文章

聚类定义

聚类(Clustering)算法的本质是对数据进行分类,将相异的数据尽可能地分开,而将相似的数据聚成一个类别(也叫族, cluster),即“物以类聚”,从而优化大规模数据库的查询和发现数据中隐含的有用信息和知识.

待分类的数据通常叫做数据记录或数据对象.

聚类算法广泛应用于市场分析、决策支持、商业经营、数据压缩、模式识别和图像处理等诸多领域.

聚类方法分为五类：

基于分层的聚类（BIRCH算法、CURE算法等）：对给定的数据集进行逐层分解，直到某种条件满足为止.

基于划分的聚类（K-means算法、K-medoids算法、Clarans算法）

基于密度的聚类（DBSCAN、OPTICS、DENCLUE算法）

基于网格的聚类（STING算法、CLIQUE算法等）

基于模型的聚类（统计的方案、神经网络的方案）

数据挖掘对聚类的典型要求：

可升缩性
处理不同类型属性的能力：数值型、二元数据、分类数据等
发现任意形状的类簇
对聚类算法初始化参数的知识需求的最小化
处理噪声数据的能力
增量聚类和对输入次序的不敏感
高维性：可以处理高维数据
基于约束的聚类
可解释性和可用性

距离和中心点

距离公式

关于各种机器学习中的距离公式

两个向量之间的距离可以反映两者的相似程度

$L_p 距离$
$\left ( \sum_{i=1}^{n}|x_i-y_i|^p\right )^{\frac{1}{p}}$
其中 $p\geq 1$ .

当p=1时，曼哈顿距离
当p=2时，欧几里得距离
当p为正无穷时，最大值距离

为什么 $p\geq 1$ ？

因为定义距离时，需要满足：非负性、对称性、三角不等式

中心点

对于一个包含m个向量的集合 $V = \{x^{(1)}, x^{(2)},.….,x^{(m)}\}$ ，其中心点c(V)也是一个向量,其计算公式为
$\frac{1}{m}\sum_{i=1}^mx^{(i)}$
这里的中心点有时也称为质点或质心点.

小葵向前冲

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
聚类算法---引言

提示：这些是自己整理可以借鉴也可能存在错误欢迎指正K均值@[TOC](K均值)前言一、是什么？二、使用步骤算法流程小结前言一、是什么？思想：数据之间的相似度与它们之间的欧式距离成反比，根据数据之间的欧式距离将数据分成k类二、使用步骤算法流程小结优点：原理简单（靠近中心点），实现容易聚类效果中上（依赖K的选择）空间复杂度o(N)时间复杂度o(IKN) (N为样本点个数，K为中心点个数，I为迭代次数)缺点：对离群点，噪声敏感（中心点易偏移）很难发现大小差别.
复制链接

扫一扫

专栏目录