TextRank文本摘要算法

摘要提取:对文本进行降维处理

内容参考:
https://www.bilibili.com/video/BV1UR4y1E7fa?spm_id_from=333.337.search-card.all.click

TextRank-文本摘要算法

TextRank基于图的排序算法,来源于谷歌的PageRank算法,把文本单元分割成若干组成单元(单词或句子)并建立图模型,利用投票机制对文本的重要成分进行排序,仅仅利用****单篇文档本身的信息就可以实现关键词提取,摘录。和LDA,HMM等模型不同,TextRank不需要对多篇文档进行训练。

基于TextRank的关键词提取

从一端给定的文本自动抽取有意义的若干词语或词组,TextRank算法是利用局部词汇之间的关系(共现窗口)对后续关键词进行排序,直接从文本本身抽取:

  1. 给定文本T按照完整句子进行分割
  2. 每个句子进行分词和词性处理,并过滤掉停用词,只保留指定词性的单词,保留后的词为候选关键词
  3. 构建候选关键词图,G=(V,E)其中V为节点集,由步骤2中生成的候选关键词组成,然后采用共现关系构造任意两点之间的边,两个节点之间存在的边仅当他们对应的词汇在
  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值