R语言复习笔记（4）High Dimentional Visualization and Analysis

最新推荐文章于 2023-08-05 00:42:38 发布

大叔爱学习.

最新推荐文章于 2023-08-05 00:42:38 发布

阅读量266

点赞数

分类专栏： R语言 statistic 统计文章标签： r语言 html5 线性代数

本文链接：https://blog.csdn.net/weixin_43716712/article/details/120395976

版权

statistic 同时被 3 个专栏收录

12 篇文章 2 订阅

订阅专栏

统计

9 篇文章 2 订阅

订阅专栏

R语言

4 篇文章 2 订阅

订阅专栏

week 4
1 Movie rating data
1.1 Data precossing
在这里插入图片描述
1.2 Data input and IDA

1.3 Hierarchical clustering

hclust()： Hierarchical 聚类，method分3种：complete，single，average
在这里插入图片描述
cutree()： 将tree型结构进行剪枝，k是按组的个数剪枝，h是按tree的高度剪枝。

which如何赋值：
注意which赋值前，应该用as.matrix转换成matrix，再赋值

1.6 Kmeans

table()： 建立不同因子的个数统计值。
kmeans()： Kmeans聚类方法，centre可以是k，也可以是中心点。
在这里插入图片描述

prcomp()： pca的方法，注意scale=T
关于画图：
要画图，注意先转成dataframe
label这里要用factor
col不能放在外面，只有放在里面才会按label分类

1.7 Cluster statistics
在这里插入图片描述
lapply和sapply的区别： sapply返回一个list，lapply返回一个2维list。
tot.withinss： 分组总和，sum(withinss)
betweenss： 组间的平方和，totss – tot.withinss
寻找他们两个的平衡点，应该是最好的k

2 Author by word count
2.1 Data Input
在这里插入图片描述

2.2 PCA 在这里插入图片描述

2.3 t-SNE
在这里插入图片描述
t-SNE t分布随机邻域嵌入是一种用于探索高维数据的非线性降维算法。
Rtsne： 注意里面的perplexity混乱程度，可以调，默认dims是2维。要取Y的值，才是取得pca。
要画图先转data frame
ggplot加标题是ggtitle。
一起画图是用的lapply函数
在这里插入图片描述
2.4 MDS