如何对网页内容进行合理的分块分析

本文探讨了网页内容分块分析的重要性,旨在确定合理的分块粒度和块重要性评估。粒度控制需平衡应用需求与选择成本,而块重要性则涉及用户查询与页面内容的匹配度。技术关键点包括定义和计算重要性,以及链接发现策略。实现后能提升块标注准确性和召回率,增强查询结果的相关性。
摘要由CSDN通过智能技术生成

 

>> 问题摘要

网页是一个层次结构。网页由不同的分块组合而成,一个大块可以由更小的一个或几个小块组成。对网页进行分析需要合理确定网页的分块粒度,即确认哪些dom 树组成一个块?哪些地方应该分块?应该分几层?网页分块重要性计算的主要工作就是确认每一个块的重要程度。如:边框没有正文重要,正文中间部分的文字比下面的评论重要,比中间的广告要重要等。分块重要性计算就是要对每一个块有一个打分,用来表示其的重要性。

 

>> 问题背景

1. 粒度控制:目标是满足目前的应用,且提供的粒度足够少,可以减少多应用的选择成本。因为层次越多,就变相地增加了各使用方的选择成本。

2. 块重要性:用户的查询词命中不同的块,意义和价值是不一样的。如果命中边框,一般这样的页面不适合排在前面展现,命中中间内容,更能满足用户的需求。

 

>> 当前的研究和技术现状

当前对网页进行分块的主要用途是:重当前对网页进行分块的主要用途是:重复控制、钓鱼网站识别、内容赋权、特定信息提取、网页分类、聚类、语义分析。用到的特征主要是视觉及文本分析上面的特征。

 

有基于单页面来做分块的,也有基于多页面来做分块的。单页面分块有维护关键词列表的方式,也有区分上下左右块的方式。多页面分块,主要是分析和挖掘dom 树上面的共现现象来进行分块及重要性分析的。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值