(纯属为了记录自己学习的点滴过程,引用资料都附在参考列表)
1 基本概念
关键句提取
在一些场合,关键词或关键短语依然显得碎片化,不足以表达完整的主题。这时通常提取中心句子作为文章的简短摘要。
2 问题
关键句提取;
3 解决思路
基本思想:
由于一篇文章中几乎不可能出现相同的两个句子,所以朴素的 PageRank 在句子颗粒度上行不通。为了将 PageRank 利用到句子颗粒度上去,我们引人 BM25 算法衡量句子的相似度,改进链接的权重计算。这样窗口的中心句与相邻的句子间的链接变得有强有弱,相似的句子将得到更高的投票。而文章的中心句往往与其他解释说明的句子存在较高的相似性,这恰好为算法提供了落脚点。
BM25:
B M 25 ( D , Q ) = ∑ i = 1 n I D F ( q i ) ⋅ T F ( q i , D ) ⋅ ( k 1 + 1 ) T F ( q i , D ) + k 1 ⋅ ( 1 − b + b ⋅ ∣ D ∣ a v g D L ) BM25(D, Q)=\sum_{i=1}^n IDF(q_i) \cdot \frac{TF(q_i,D) \cdot (k_1+1)}{TF(q_i,D)+k_1 \cdot (1 - b + b \cdot \frac{|D|}{avgDL})} BM25(D,Q)=∑i=1nIDF(q