【NLP】关键词提前算法

最新推荐文章于 2022-03-23 13:57:54 发布

zkq_1986

最新推荐文章于 2022-03-23 13:57:54 发布

阅读量403

点赞数

分类专栏： NLP

NLP 专栏收录该内容

80 篇文章 11 订阅

订阅专栏

TextRank算法提取关键词的Java实现

码农场 > 自然语言处理 2014-03-26 阅读(16935) 评论(27)

目录

谈起自动摘要算法，常见的并且最易实现的当属TF-IDF，但是感觉TF-IDF效果一般，不如TextRank好。

TextRank是在Google的PageRank算法启发下，针对文本里的句子设计的权重算法，目标是自动摘要。它利用投票的原理，让每一个单词给它的邻居（术语称窗口）投赞成票，票的权重取决于自己的票数。这是一个“先有鸡还是先有蛋”的悖论，PageRank采用矩阵迭代收敛的方式解决了这个悖论。TextRank也不例外：

PageRank的计算公式：

正规的TextRank公式

正规的TextRank公式在PageRank的公式的基础上，引入了边的权值的概念，代表两个句子的相似度。

但是很明显我只想计算关键字，如果把一个单词视为一个句子的话，那么所有句子（单词）构成的边的权重都是0（没有交集，没有相似性），所以分子分母的权值w约掉了，算法退化为PageRank。所以说，这里称关键字提取算法为PageRank也不为过。

另外，如果你想提取关键句（自动摘要）的话，请参考姊妹篇《TextRank算法自动摘要的Java实现》。

转载自：http://www.hankcs.com/nlp/textrank-algorithm-to-extract-the-keywords-java-implementation.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【NLP】关键词提前算法

TextRank算法提取关键词的Java实现码农场 > 自然语言处理2014-03-26 阅读(16935)评论(27)目录PageRank的计算公式：正规的TextRank公式TextRank的Java实现排序后的投票结果：开源项目地址谈起自动摘要算法，常见的并且最易实现的当属TF-IDF，但是感觉TF-ID
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。