TF-IDF判重算法在小规模和大规模数据集上的应用

最新推荐文章于 2021-12-27 22:40:08 发布

byufeng

最新推荐文章于 2021-12-27 22:40:08 发布

阅读量1.6k

点赞数

本文链接：https://blog.csdn.net/xys228280987/article/details/51085401

版权

1.将所有文档读入内存,对每篇文章分词，并保存每篇文章中每个词出现的频度(TF)和每篇文章出现过的所有词(用来计算IDF)

2.统计所有文档出现过的所有词作为语料库，对每个词计算ln(N/n+1)作为IDF值

3.对每篇文章的每个词用TF*IDF值得到它的权重分值

4.取前n个作为关键词

分布式:

1.以每10W个文档为一个分片，保存每篇文章的分词和词频，保存每个分片中的每个词出现在文档中的次数

2.统计所有分片，计算每个词的idf值

3...

•优点

–实现简单，得出的结果与实际情况比较符合。

•缺点

–不够全面，单纯以"词频"衡量一个词的重要性，有时重要的词可能出现次数并不多。

–无法体现词的位置信息，出现位置靠前的词与出现位置靠后的词，都被视为重要性相同

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注