textrank算法提取文本摘要

最新推荐文章于 2024-08-29 16:37:54 发布

狗庄欺人太甚

最新推荐文章于 2024-08-29 16:37:54 发布

阅读量1.2k

点赞数

分类专栏： NLP 文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48262500/article/details/126263645

版权

TextRank算法的基本思想是将文档看作一个词的网络（一种基于图的排序方法，用于提取相关句子或查找关键字），该网络中的链接表示词与词之间的语义关系。

TextRank算法主要包括：关键词抽取、关键短语抽取、关键句抽取。

（1）关键词抽取（keyword extraction）

关键词抽取是指从文本中确定一些能够描述文档含义的术语的过程。对关键词抽取而言，用于构建顶点集的文本单元可以是句子中的一个或多个字；根据这些字之间的关系（比如：在一个框中同时出现）构建边。根据任务的需要，可以使用语法过滤器（syntactic filters）对顶点集进行优化。语法过滤器的主要作用是将某一类或者某几类词性的字过滤出来作为顶点集。

（2）关键短语抽取（keyphrase extration）

关键词抽取结束后，我们可以得到的N个关键词，在原始文本中相邻的关键词构成关键短语。因此，从get_keyphrases函数的源码中我们可以看到，它先调用get_keywords抽取关键词，然后分析关键词是否存在相邻的情况，最后确定哪些是关键短语。

（3）关键句抽取（sentence extraction）

句子抽取任务主要针对的是自动摘要这个场景，将每一个sentence作为一个顶点，根据两个句子之间的内容重复程度来计算他们之间的“相似度”，以这个相似度作为联系，由于不同句子之间相似度大小不一致，在这个场景下构建的是以相似度大小作为edge权重的有权图。

这是利用TextRank提取的一些摘要

最低0.47元/天解锁文章

狗庄欺人太甚

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
textrank算法提取文本摘要

TextRank算法的基本思想是将文档看作一个词的网络（一种基于图的排序方法，用于提取相关句子或查找关键字），该网络中的链接表示词与词之间的语义关系。TextRank算法主要包括：关键词抽取、关键短语抽取、关键句抽取。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。