week 4
1 Movie rating data
1.1 Data precossing
1.2 Data input and IDA
1.3 Hierarchical clustering
hclust(): Hierarchical 聚类,method分3种:complete,single,average
cutree(): 将tree型结构进行剪枝,k是按组的个数剪枝,h是按tree的高度剪枝。
which如何赋值:
注意which赋值前,应该用as.matrix转换成matrix,再赋值
1.6 Kmeans
table(): 建立不同因子的个数统计值。
kmeans(): Kmeans聚类方法,centre可以是k,也可以是中心点。
prcomp(): pca的方法,注意scale=T
关于画图:
要画图,注意先转成dataframe
label这里要用factor
col不能放在外面,只有放在里面才会按label分类
1.7 Cluster statistics
lapply和sapply的区别: sapply返回一个list,lapply返回一个2维list。
tot.withinss: 分组总和,sum(withinss)
betweenss: 组间的平方和,totss – tot.withinss
寻找他们两个的平衡点,应该是最好的k
2 Author by word count
2.1 Data Input
2.2 PCA
2.3 t-SNE
t-SNE t分布随机邻域嵌入是一种用于探索高维数据的非线性降维算法。
Rtsne: 注意里面的perplexity混乱程度,可以调,默认dims是2维。要取Y的值,才是取得pca。
要画图先转data frame
ggplot加标题是ggtitle。
一起画图是用的lapply函数
2.4 MDS
构建不同方法的distance
cmdscale(): 构建mds
这里主要要修改attr,方便之后的method绘图
2.5 Compare and contrast