动态摘要(dynamic abstract) ,搜索引擎术语,是一种对被检索的文档进行主要内容动态显示的技术。 对于搜索引擎来说,当响应用户查询的时候,根据查询词在文档中出现的位置,提取出查询词周围相关的文字并返回给用户。由于一篇文档会被不同的查询词(query)召回,因此动态摘要技术。 根据query term的不同,对同一个文档形成不同的摘要文字。 与动态摘要相对应的概念是“静态摘要”(static abstract),静态摘要由搜索引擎预先提取并保存好,当url被搜索引擎展现时,直接显示该摘要,不受query的不同而改变。
这块挺有意思的,这几天在用C++实现它,基于的原理是一篇论文《基于滑动窗口的动态摘要实现算法》,目前实现了一半,主要有三个问题没有解决,一个是摘要评分的五个标准我才实现了关键词数目这一个标准,其他基本没怎么实现,这个才是动态摘要的精华所在,准确率完全依靠这块的实现,得加快进度了;二是摘要显示,比如句子黏度和前后断句等等;三是我对容器的掌握太搓了,很多地方应该用容器的地方我都用数组替代,这点很不合理,亟待改进。
下周内完成这个,加油。。。