R语言 NMF 如何自动判断最佳rank的数目

最新推荐文章于 2024-07-20 09:40:11 发布

箫声依旧小鱼儿

最新推荐文章于 2024-07-20 09:40:11 发布

阅读量8.7k

点赞数 5

分类专栏：代码 R语言文章标签： NMF rank R语言

本文链接：https://blog.csdn.net/yjj18636810884/article/details/83214566

版权

代码同时被 2 个专栏收录

16 篇文章 0 订阅

订阅专栏

R语言

13 篇文章 1 订阅

订阅专栏

文章目录

1. 用NMF示例方法产生默认的判断rank数的图片

library(NMF)
data("esGolub")
esGolub <- esGolub[1:200,]
esGolub$Sample <- NULL
estim.r <- nmf(esGolub, 2:6, nrun=10, seed=123456)
plot(estim.r)
plot(2:6,estim.r$measures$cophenetic, type="b", col="purple")

结果展示
在这里插入图片描述
通过图我们判断，最佳聚类数为3，筛选准则来源于原文献中的一句话：
We select values of k where the magnitude of the cophenetic correlation coefficient begins to fall

2. 提取cophenetic 数据

NMF方法中判断rank最重要的标准是cophenetic的大小，所以从上面的计算结果中提取cophenetic 数据

coph <- estim.r$measures$cophenetic
plot(2:6,coph, type="b", col="purple")

结果展示
在这里插入图片描述
观察到结果和图集一中的图完全一致，说明我们提取的数据和示例展示的数据是一致的，接下来我们用判断准则，编写相关代码，实现自动判断。

3. 实现自动判断最佳rank值

判断最佳rank值的准则就是，cophenetic 值随K变化的最大变动的前点，如3-4变化最大，所以选择最佳rank值为3
这是我自己根据文章的理解，欢迎讨论和批评指正。

coph_diff <- NULL
for (i in 2:length(coph)) 
{
  coph_diff <- c(coph_diff, coph[i-1]-coph[i])
}
k.best <- which.max(coph_diff)+1

参考文献：
Metagenes and molecular pattern discovery using matrix factorization

箫声依旧小鱼儿

关注

5
点赞
踩
20

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录