5003笔记 Statistic Chapter4-High dimentional visulization and analytics

最新推荐文章于 2024-05-21 11:10:58 发布

大叔爱学习.

最新推荐文章于 2024-05-21 11:10:58 发布

阅读量234

点赞数

分类专栏： statistic 统计文章标签：机器学习统计学概率论

本文链接：https://blog.csdn.net/weixin_43716712/article/details/121394399

版权

statistic 同时被 2 个专栏收录

12 篇文章 2 订阅

订阅专栏

统计

9 篇文章 2 订阅

订阅专栏

在这里插入图片描述
常见的聚类算法：
Hierarchical, K-means, Gaussian mixture, Density

5003的K-means和5318的不同。
1）选取cluster个数K
2）给所有点随机分配不同的Kth
3）计算每个Kth中心点的位置
4）计算所有点和K个中心点的距离，把该点分配为距离最近的中心点类型的cluster
5）重新计算K个cluster的中心点，不断迭代
6）当中心点位置改变收敛时，停止迭代
在这里插入图片描述

通过WSS和Elbow point来选择合适的K。注意这里WSS是求在第ith个cluster中，两两点之间的距离，不是每个点到中心点的距离。注意Ck是在cluster内，两两点组合的总个数，不是cluster内点的个数。

再将每个cluster的WSS求和，就是这个cluster分类K个cluster的WSS total。
随着K的提高，WSS total会降低。
在这里插入图片描述

分层的时候，我们不需要提前考虑K，想分几个K，就做一个横切面。下图绿线部分。

Lasso让不重要的特征的系数趋近于0.

Φi1是第一个主要成分。成为loading
Φ要满足Φ.T*Φ=1
同时满足那里是考点
在这里插入图片描述
Maximize Var(Z1) 最大：离散程度表示信息量，离散程度越高，信息量越高。让新的特征值保留原来的数据更多的数据，就要让Varinace Z尽可能的大。

PCS主成分得分：Z1=(Z11+Z21 + … Zn1)是一个vector。里面每个Z互相垂直，互不相关，点积为0，线性独立linear dependence。

t-SNE不能用于训练模型，只是用来可视化

MDS多维定标。matrix是点与点之间的关系链表，值不是distance，而是他们的相对关系。

![在这里插入图片描述](https://img-blog.csdnimg.cn/8deb808f38664ad2b623028e15de16cc.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA54ix5a2m5Lmg55qE5aSn5Y-U,size_20,color_FFFFFF,t_70,g_se,x_16

K是维度，一般取2或者3。

大叔爱学习.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
5003笔记 Statistic Chapter4-High dimentional visulization and analytics

常见的聚类算法：Hierarchical, K-means, Gaussian mixture, Density5003的K-means和5318的不同。1）选取cluster个数K2）给所有点随机分配不同的Kth3）计算每个Kth中心点的位置4）计算所有点和K个中心点的距离，把该点分配为距离最近的中心点类型的cluster5）重新计算K个cluster的中心点，不断迭代6）当中心点位置改变收敛时，停止迭代通过WSS和Elbow point来选择合适的K。注意这里WSS是求在.
复制链接

扫一扫