5003笔记 Statistic Chapter4-High dimentional visulization and analytics

在这里插入图片描述
常见的聚类算法:
Hierarchical, K-means, Gaussian mixture, Density
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
5003的K-means和5318的不同。
1)选取cluster个数K
2)给所有点随机分配不同的Kth
3)计算每个Kth中心点的位置
4)计算所有点和K个中心点的距离,把该点分配为距离最近的中心点类型的cluster
5)重新计算K个cluster的中心点,不断迭代
6)当中心点位置改变收敛时,停止迭代
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
通过WSS和Elbow point来选择合适的K。注意这里WSS是求在第ith个cluster中,两两点之间的距离,不是每个点到中心点的距离。注意Ck是在cluster内,两两点组合的总个数,不是cluster内点的个数。
在这里插入图片描述
再将每个cluster的WSS求和,就是这个cluster分类K个cluster的WSS total。
随着K的提高,WSS total会降低。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
分层的时候,我们不需要提前考虑K,想分几个K,就做一个横切面。下图绿线部分。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Lasso让不重要的特征的系数趋近于0.
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Φi1是第一个主要成分。成为loading
Φ要满足Φ.T*Φ=1
同时满足那里是考点
在这里插入图片描述
Maximize Var(Z1) 最大:离散程度表示信息量,离散程度越高,信息量越高。让新的特征值保留原来的数据更多的数据,就要让Varinace Z尽可能的大。
在这里插入图片描述
PCS主成分得分:Z1=(Z11+Z21 + … Zn1)是一个vector。里面每个Z互相垂直,互不相关,点积为0,线性独立linear dependence。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
t-SNE不能用于训练模型,只是用来可视化
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
MDS多维定标。matrix是点与点之间的关系链表,值不是distance,而是他们的相对关系。
在这里插入图片描述
![在这里插入图片描述](https://img-blog.csdnimg.cn/8deb808f38664ad2b623028e15de16cc.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA54ix5a2m5Lmg55qE5aSn5Y-U,size_20,color_FFFFFF,t_70,g_se,x_16
在这里插入图片描述
在这里插入图片描述
K是维度,一般取2或者3。
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值