聚类分析知识记录

ww要努力呀

于 2023-01-01 12:35:57 发布

阅读量161

点赞数

分类专栏： # 复习内容

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wwang_123/article/details/128511669

版权

复习内容专栏收录该内容

10 篇文章 2 订阅

订阅专栏

文章目录

6.1 概述

聚类是无监督机器学习问题

目标：感知样本间的相似度，进行类别归纳

重要应用：1.潜在类别预测 2.数据压缩

既可以作为一个单独过程，用于寻找数据内在的分布结构，也可以作为分类、稀疏表示等其他学习任务的前驱任务

影响聚类结果的因素：1. 属性选择 2.相似性度量 3. 聚类规则

常用到的相似性度量：

1.样本–样本

向量相似性

2.样本–集合

集合为离散点集
- 到集合最远点距离
- 到集合最近点距离
- 到集合平均点距离
集合为连续区域
- 集合为平面 $d(x,H)=\displaystyle \min_{z\epsilon H}d(x,z)$
- 集合为圆 $d(x,Q)=\displaystyle \min_{z\epsilon Q}d(x,z)$

3.集合–集合（类间距离）

集合间最远点距离
集合间最近点距离
集合间所有点平均距离
集合表征点间距离（如平均值）

4.集合内样本间距离（类内距离）

性能度量
请添加图片描述

6.2 序贯方法

逐一比较单个样本与类簇的相似性，有相似类则归类，无相似类则建新类

优点：一种简单的，快速算法

相似性的关键度量：类别相似性：样本–类簇（样本–集合）

缺点：所有样本过滤一遍后才知道类别总数，而先出现的样本不能找到（后出现的）合适类别

改进算法：采用两个阶段，类别确定、分类

两阶段序贯方法：1.检测类别个数(只新建类别) 2. 类别划分(只进行分类)

缺点：以上两种方法依赖于阈值

改进方法：弱化阈值作用，采用两个阈值，形成灰色带

双阈值序贯算法：在阈值中间的小心判别，慢慢放进类里

前面三种算法缺点：1. 当类别一旦产生，不可变，尽管后来类簇增加，类别很相近也无法合并 2. 敏感于样本顺序，样本类别未必是最合适的

增强算法：增强处理1：对类别集合进行合并操作；增强处理2：对样本类别重置

6.3 层次聚类

聚类嵌套定义：R1和R2是样本集X上的两种聚类划分，如果R1中所有的类簇都是R2中类簇的子集，则称R1嵌套在R2内，记作 $\subset R2$

层次聚类策略：类簇之间（依据相似性）不断合并或不断的分化，直到满足聚类停止条件。

自底向上/归并算法：

第i次迭代：计算所有两个类簇的相似性，归并最相似的两个类簇，更新类别划分Ri
缺点：没有归并的类簇间相似性，被重复计算
基于矩阵的归并算法
- 利用矩阵记录类簇间的相似性
  - 删除对应合并的两行和列
  - 增加一行和列：新类簇与其他类簇的相似度
- 优点：不必重复计算“没有合并的类簇间”的相似性

自顶向下/分化算法：

第i次迭代：在所有类簇的所有划分中，计算所有两个类簇相似性，选择最不相似的类簇集合划分，更新类别划分Ri
缺点：没有划分的类簇间相似性，被重复计算
对于包含有n个样本的类簇，可能分化有几种？ $2^{n}/2)-1=2^{n-1}-1$

6.4 k均值聚类

**kmeans：**将样本分给最近的类心，然后重新调整类心，通过多次迭代，逐步进行类别划分

最优准则：最小化误差平方和

误差的扩展：也可以采用余弦距离，或其他反映距离和误差的度量

一般方法：最近类心原则，批量划分后修正类心

存在的问题：1.可能导致空的类簇 2.批量修正使得划分并不能最好的收敛目标

改进方法：单个划分最优原则，单个划分后修正类心

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
聚类分析知识记录

聚类分析知识记录
复制链接

扫一扫

专栏目录

ww要努力呀 CSDN认证博客专家 CSDN认证企业博客

码龄2年

86: 原创

12万+: 周排名

2万+: 总排名

4万+: 访问

: 等级

1279: 积分

516: 粉丝

399: 获赞

4: 评论

434: 收藏

私信

关注

热门文章

分类专栏

前端 3篇
React 1篇
各种报错 2篇
机器学习 9篇
复习内容 10篇
Java 14篇
go 12篇
nlp 11篇
计算机网络 4篇
python 8篇

最新评论

python的一些库
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
客户端web开发工具
普通网友: 干货满满！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章
python中将print的内容输出到日志文件中
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh_CN/latest 使用原生 loggng封装，兼容性和替换性100%。 1、日志能根据级别能够自动变彩色。 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。相比 loguru 有10胜。 pip install nb_log 。
go语言学习——2
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/614910496。
pytorch学习记录
CSDN-Ada助手: 书山有路勤为径，学海无涯苦作舟，加油！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。