NMF
非负矩阵分解(NMF)是一种无监督的技术,因此没有标签可供训练的主题。它的工作方式是NMF将高维向量分解(或分解)为低维表示。这些低维向量是非负的,这也意味着它们的系数是非负的。
使用原始矩阵(A),NMF将为您提供两个矩阵(W和H)。W是找到的主题,H是这些主题的系数(权重)。换句话说,A是按词的文章(原始),H是按主题的文章,而W是按词的主题。
因此,假设有301篇文章,5000个单词和30个主题,我们将获得以下3个
A = tfidf_vectorizer.transform(texts)
W = nmf.components_
H = nmf.transform(A)
A = 301 x 5000
W = 30 x 5000
H = 301 x 30
NMF将修改W和H的初始值,以使乘积接近A,直到逼近误差收敛或达到最大迭代次数为止。
在我们的案例中,高维向量将是tf-idf权重,但实际上可以是任何东西,包括单词向量或单词的简单原始计数。