R语言 复习笔记(4)High Dimentional Visualization and Analysis

9 篇文章 2 订阅
4 篇文章 2 订阅

week 4
1 Movie rating data
1.1 Data precossing
在这里插入图片描述
1.2 Data input and IDA
在这里插入图片描述
在这里插入图片描述
1.3 Hierarchical clustering

hclust(): Hierarchical 聚类,method分3种:complete,single,average
在这里插入图片描述在这里插入图片描述在这里插入图片描述
cutree(): 将tree型结构进行剪枝,k是按组的个数剪枝,h是按tree的高度剪枝。
在这里插入图片描述
在这里插入图片描述
which如何赋值:
注意which赋值前,应该用as.matrix转换成matrix,再赋值
在这里插入图片描述
1.6 Kmeans
在这里插入图片描述
table(): 建立不同因子的个数统计值。
kmeans(): Kmeans聚类方法,centre可以是k,也可以是中心点。
在这里插入图片描述
在这里插入图片描述
prcomp(): pca的方法,注意scale=T
关于画图:
要画图,注意先转成dataframe
label这里要用factor
col不能放在外面,只有放在里面才会按label分类
在这里插入图片描述
在这里插入图片描述

1.7 Cluster statistics
在这里插入图片描述
lapply和sapply的区别: sapply返回一个list,lapply返回一个2维list。
tot.withinss: 分组总和,sum(withinss)
betweenss: 组间的平方和,totss – tot.withinss
寻找他们两个的平衡点,应该是最好的k
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
2 Author by word count
2.1 Data Input
在这里插入图片描述在这里插入图片描述

2.2 PCA在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.3 t-SNE
在这里插入图片描述
t-SNE t分布随机邻域嵌入是一种用于探索高维数据的非线性降维算法。
Rtsne: 注意里面的perplexity混乱程度,可以调,默认dims是2维。要取Y的值,才是取得pca。
要画图先转data frame
ggplot加标题是ggtitle。
一起画图是用的lapply函数
在这里插入图片描述
2.4 MDS

在这里插入图片描述
构建不同方法的distance
在这里插入图片描述
cmdscale(): 构建mds
这里主要要修改attr,方便之后的method绘图
在这里插入图片描述
在这里插入图片描述
2.5 Compare and contrast
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值