其原理基础是PageRank算法,建议先理解PageRank算法再来看该篇文章。
TextRank 算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的 PageRank算法, 通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取、文摘。和 LDA、HMM 等模型不同, TextRank不需要事先对多篇文档进行学习训练, 因其简洁有效而得到广泛应用。有两个主要应用,一个是生成摘要(句子级别),一个是提取关键词(词语级别)。
TextRank算法应用于文档摘要生成
TextRank 一般模型可以表示为一个有向有权图 G =(V, E), 由点集合 V和边集合 E 组成, E 是V ×V的子集。另外,在对一篇文档进行自动摘要时,默认每个语句和其他语句都有链接关系,也就是一个有向完全图。