TF-IDF算法和TextRank算法(自用)

TF-IDF算法是一种用于文本挖掘的常用技术,它帮助识别文档中的关键词。

词频(TF)表示一个词在文档中出现的次数。这个数字通常会被标准化(例如,通过词频除以文章总词数),以防止它偏向长的文档中。

逆文档频率(IDF)表示一个词在所有文档中的普遍性。如果一个词在很多文档中都出现,那么它的IDF值会低,反之则高。

将TF和IDF相乘就得到了一个词的TF-IDF值,这个值越高,表示这个词对于文档的重要性越大。

基于TF-IDF算法的关键词提取代码

from jieba import analyse

key_word = analyse.extract_tags(test_content,topk=3)
print('[key_word];' , list(key_word))
key_word = analyse.extract_tags(test_content,topk=3,withWeight=True)
print('[key_word];' , list(key_word)

TextRank算法是一种基于图的排序算法,用于从文本中提取关键词和生成摘要。

一个通俗易懂的例子理解TextRank算法:

想象一下,你的朋友圈里有很多人,大家经常互相转发信息。在这个朋友圈中,有些人非常活跃,他们转发的信息很多人都会看。TextRank算法就像是一个观察者,它试图找出谁是朋友圈中最受欢迎的人。
建立关系:TextRank算法首先会看谁经常和谁一起出现。就像在朋友圈里,哪些人经常一起被提到,可能就是关系比较好的朋友。
评分:然后,算法会给每个人打分。如果一个人被很多人提到,那他的分数就会很高。如果一个分数高的人提到了另一个人,那么被提到的人的分数也会上升。
找出明星:通过这种方式,算法就可以找出哪些人是朋友圈里的“明星”,也就是最重要的人。
在文本中,这些“明星”就是关键词或者重要的句子。TextRank算法通过观察哪些词或句子经常一起出现,以及它们被其他重要的词或句子提到的频率,来决定它们的重要性。

TextRank算法的优点在于它不需要任何外部信息,只需利用文本本身的信息就可以进行关键词和关键句的提取。这使得TextRank成为一个简单且有效的工具,广泛应用于自然语言处理领域,特别是在信息检索、文本摘要和关键词提取等任务中。

基于TextRank算法的关键词提取代码

key_word = analyse.textrank(test_content, topk=3)
print('[key_word];' , list(key_word))
allow = ['ns', 'n', 'vn', 'v', 'a', 'm', 'c']
key_word = analyse.textrank(test_content,topk=3,allowPOS=allow,withWeight=true)
print('[key_word];' , list(key_word))


 

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值