基于TextRank的关键词提取算法

本文介绍了基于TextRank的关键词提取算法,该算法源于PageRank,将词作为节点,通过共现关系建立链接。主要步骤包括文本分割、分词、过滤停用词、构建关键词图、迭代计算权重及生成最终关键词。
摘要由CSDN通过智能技术生成

基于TextRank的关键词提取算法


前沿

TextRank是一种文本排序算法,是基于著名的网页排序算法PageRank改动而来。在介绍TextRank前,我们先简单介绍下什么是PageRank。另外TextRank不仅能进行关键词提取,也能做自动文摘,这边文章以关键词提取为主,自动文摘部分后续补充。

一、PageRank原理

PageRank是用来计算网页重要性的,将每一个网页看作一个节点,将网页之间的链接看作是节点之间的有向边,网页的重要性取决于链接到它的网页数量以及这些网页的重要性。衡量网页重要性的公式说明如下:

基于TextRank的关键词提取算法

二、TextRank原理

进行关键词提取时,TextRank算法思想和PageRank算法类似,不同的是,TextRank中时以词为节点,以共现关系建立起节点之间的链接,需要强调的是,PageRank中是有向边,而TextRank中是无向边,或者说是双向边。

什么是共现关系呢?将文本进行分词,去除停用词或词性筛选等之后,设定窗口长度为K,即最多只

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值