TF-IDF算法和TextRank算法(自用）_textrank 和fuzzy比较-CSDN博客

本文链接：https://blog.csdn.net/zhanzhiling/article/details/136935903

TF-IDF算法是一种用于文本挖掘的常用技术，它帮助识别文档中的关键词。

词频（TF）表示一个词在文档中出现的次数。这个数字通常会被标准化（例如，通过词频除以文章总词数），以防止它偏向长的文档中。

逆文档频率（IDF）表示一个词在所有文档中的普遍性。如果一个词在很多文档中都出现，那么它的IDF值会低，反之则高。

将TF和IDF相乘就得到了一个词的TF-IDF值，这个值越高，表示这个词对于文档的重要性越大。

基于TF-IDF算法的关键词提取代码

from jieba import analyse

key_word = analyse.extract_tags(test_content,topk=3)
print('[key_word];' , list(key_word))
key_word = analyse.extract_tags(test_content,topk=3,withWeight=True)
print('[key_word];' , list(key_word)

TextRank算法是一种基于图的排序算法，用于从文本中提取关键词和生成摘要。

一个通俗易懂的例子理解TextRank算法：

想象一下，你的朋友圈里有很多人，大家经常互相转发信息。在这个朋友圈中，有些人非常活跃，他们转发的信息很多人都会看。TextRank算法就像是一个观察者，它试图找出谁是朋友圈中最受欢迎的人。
建立关系：TextRank算法首先会看谁经常和谁一起出现。就像在朋友圈里，哪些人经常一起被提到，可能就是关系比较好的朋友。
评分：然后，算法会给每个人打分。如果一个人被很多人提到，那他的分数就会很高。如果一个分数高的人提到了另一个人，那么被提到的人的分数也会上升。
找出明星：通过这种方式，算法就可以找出哪些人是朋友圈里的“明星”，也就是最重要的人。
在文本中，这些“明星”就是关键词或者重要的句子。TextRank算法通过观察哪些词或句子经常一起出现，以及它们被其他重要的词或句子提到的频率，来决定它们的重要性。

TextRank算法的优点在于它不需要任何外部信息，只需利用文本本身的信息就可以进行关键词和关键句的提取。这使得TextRank成为一个简单且有效的工具，广泛应用于自然语言处理领域，特别是在信息检索、文本摘要和关键词提取等任务中。

基于TextRank算法的关键词提取代码

key_word = analyse.textrank(test_content, topk=3)
print('[key_word];' , list(key_word))
allow = ['ns', 'n', 'vn', 'v', 'a', 'm', 'c']
key_word = analyse.textrank(test_content,topk=3,allowPOS=allow,withWeight=true)
print('[key_word];' , list(key_word))