TF-IDF算法(纯代码)
TF-IDF算法的核心思想是,对于一个词在一篇文档中出现得越多,且在整个语料库中出现得越少,它就越能够代表这篇文档的主题或关键信息。它是根据单词在文本中的出现频率和在整个语料库中的文档频率来计算的,其中TF代表词频,IDF代表逆文档频率。其中$w$表示某个单词,$n{w,d}$表示单词$w$在文档$d$中出现的次数,$\sum{i=1}^{n} n_{i,d}$表示文档$d$中所有单词出现的总次数。其中$N$是文档总数,$df_w$是包含单词$w$的文档数。
原创
2023-04-13 19:09:43 ·
763 阅读 ·
0 评论