>> 问题摘要
网页是一个层次结构。网页由不同的分块组合而成,一个大块可以由更小的一个或几个小块组成。对网页进行分析需要合理确定网页的分块粒度,即确认哪些dom 树组成一个块?哪些地方应该分块?应该分几层?网页分块重要性计算的主要工作就是确认每一个块的重要程度。如:边框没有正文重要,正文中间部分的文字比下面的评论重要,比中间的广告要重要等。分块重要性计算就是要对每一个块有一个打分,用来表示其的重要性。
>> 问题背景
1. 粒度控制:目标是满足目前的应用,且提供的粒度足够少,可以减少多应用的选择成本。因为层次越多,就变相地增加了各使用方的选择成本。
2. 块重要性:用户的查询词命中不同的块,意义和价值是不一样的。如果命中边框,一般这样的页面不适合排在前面展现,命中中间内容,更能满足用户的需求。
>> 当前的研究和技术现状
当前对网页进行分块的主要用途是:重当前对网页进行分块的主要用途是:重复控制、钓鱼网站识别、内容赋权、特定信息提取、网页分类、聚类、语义分析。用到的特征主要是视觉及文本分析上面的特征。
有基于单页面来做分块的,也有基于多页面来做分块的。单页面分块有维护关键词列表的方式,也有区分上下左右块的方式。多页面分块,主要是分析和挖掘dom 树上面的共现现象来进行分块及重要性分析的。