机器学习算法模型（聚类算法）

最新推荐文章于 2024-02-03 13:19:39 发布

不要只是看起来很努力咯

最新推荐文章于 2024-02-03 13:19:39 发布

阅读量185

点赞数

文章标签：聚类机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47730081/article/details/115189570

版权

文章目录

- K均值聚类算法
- DBSCAN

K均值聚类算法

EM算法策略----
（通俗的说就是先给出参数对隐变量进行估计，然后根据隐变量的估计得出结果，当得出的结果不

再发生变化时即结束算法）
目标：
最小化平方误差 $E(\{\mu_k\})=\sum_{k=1}^K\sum_{i=1,z_i=k}^N||x_i-\mu_k||^2$ ，此优化目标一

定会收敛，可以通过其误差函数确定最优的k值。

输入：N个样本 ${x_1,x_2,...,x_N\}$ ,

输出：N个样本的类别 ${z_i\}_{i=1-N}$ ;----（相当于隐变量）

1、随机化中心 $\mu_1,\mu_2,...,\mu_k$

2、E-step：
$z_i=argmin_k||x_i-\mu_k||$ ----可以使 $E$ 变小
（对每个质心：
计算质心与数据点之间的距离
将数据点分配到距其最近的簇）

3、M-step：
$N_k=\sum_{i=1}^NI(z_i=k)$
$\mu_k = \frac{1}{N}\sum_{i=1,z_i=k}^Nx_i$
（对每个簇计算簇中的所有点的均值，并将均值作为质心）

4、（当任意一个点的簇分配结果发生变化时）转至2直到收敛。

DBSCAN

----具有噪声的基于密度的聚类方法，不需要输入类别K。

对于样本N个样本 $D=\{x_1,x_2,...,x_N\}$ ，参数 $(\varepsilon,Minpts)$ 描述了邻域的样本

的分布紧密程度。 $\varepsilon$ 表示某一样本 $x_i$ 邻域距离阈值；Minpts用来衡量样本

$x_i$ 在其邻域内成为核心对象的样本个数的阈值。

定义

（1） $\varepsilon$ -邻域： $\forall x_j\in D$ ，与样本 $x_i$ 的距离小于阈值 $\varepsilon$ 的子样本集，此区域样本数可记为 $N_\varepsilon(x_i)$ 。

（2）核心对象： $\forall x_i\in D$ ，如果其 $\varepsilon$ 的邻域的样本集个数大于阈值Minpts，则为核心对象。

（3）密度直达：对于一核心对象 $x_i$ ，在其邻域内任一样本 $x_j$ ，则称样本 $x_j$ 可有 $x_i$ 密度直达。

（4）密度可达（根据此标准进行聚类）：对于样本 $x_i,x_j$ ，如果存在样本序列

$x_{k,1},x_{k,2},...,x_{k,n}$ ，满足 $x_i=x_{k,1},x_j=x_{k,n}$ ，并且样本 $x_{k,i+1}$ 由样

本 $x_{k,i}$ 密度直达，则称样本 $x_i,x_j$ 密度可达，此时，样本

$x_{k,1},x_{k,2},..x_{k,n-1}$ 为核心对象，** $x_j$ **不一定要求是核心对象。

也就是把这些样本序列归成一类。

不要只是看起来很努力咯

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法模型（聚类算法）

K均值聚类算法EM算法策略----（通俗的说就是先给出参数对隐变量进行估计，然后根据隐变量的估计得出结果，当得出的结果不再发生变化时即结束算法）目标：最小化平方误差E({μk}=∑k=1K∑i=1,zi=kN∣∣xi−μk∣∣2E(\{\mu_k\}=\sum_{k=1}^K\sum_{i=1,z_i=k}^N||x_i-\mu_k||^2E({μk}=∑k=1K∑i=1,zi=kN∣∣xi−μk∣∣2输入：N个样本{x1,x2,...,xN}\{x_1,x_2,...,x_N\}{x
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。