基于语义和规则的Web网页细粒度信息抽取方法

基于语义和规则的Web网页细粒度信息抽取方法

王晓飞11

(北京邮电大学模式识别实验室)

摘要:本文在利用语义和规则的基础上,提出了一个Web网页信息细粒度抽取的方法。方法首先,利用Web网页的结构和HTML标签信息进行网页的粗粒度信息抽取;其次,结合网页标签、结构和文本语义将粗粒度信息进行文本标识和分割,形成语义上紧密相关的标识文本;然后,根据语义解释器,依次识别出文本中的属性项;最后利用语义和规则,确定属性和属性值对。实验证明,该方法逐步细化分解网页,有效的利用了网页潜在的语义信息,拥有不依赖网页类型、结构,适用性好的优点。实验表明该方法提取正文细粒度精确度达到了90%。

关键词:语义解释器;属性项;相似度;细粒度;抽取规则

中图分类号TM 391  文献标志码: A

0   引言

随着互联网的迅速发展,涌现了许多优秀的互联网应用,如电子商务、微博、团购、社交网络等,这些优秀的应用在带给人们方便快捷的信息分享的同时,也造成了Web网络信息量的爆炸式增长。越来越多的应用希望能够从海里的Web数据中抽取到精确有用的细粒度信息以便进行深度的信息处理。

然而,目前的信息抽取方法大都存在以下缺陷:仅抽取网页的标题和正文,抽取信息过于粗糙;数据抽取精度高,但是抽取方法复杂,实用性差[1];仅能处理一种类型网页,方法适用性低;抽取方法缺少对抽取数据的语义解释能力,导致抽取数据项偏差较大,精确度不高,自动化识别程度低。随着互联网网页信息的纷繁复杂,网页信息的细粒度抽取显得越来越重要。

1  相关工作

Web网页信息抽取的目的是从非结构化或半结构化的Web文档中抽取数据,并转换成结构化数据,服务于后续的深度信息处理[2]。目前存在的信息抽取方法,主要有以下几种方法:基于包装器的信息抽取[3],利用特定信息源的抽取规则构造数据抽取器,但是我们往往需要处理多种类型网页、文本,很难找到抽取细致化的共同规则集;基于Web结构标签的抽取[4],利用HTML文档结构、标签信息进行数据项定位,但是实际运用中,我们往往不知道我们要处理的网站网页的结构信息,很难依赖未知网页的结构进行信息定位;基于自然语言理解的信息抽取[5],利用自然语言上下文关系、词性和词汇语义标识、短语和语句关联,通过学习,建立抽取规则,然后利用这些规则定位抽取元素,具有一定通用性,但是目前构建词义规则的方法都较为复杂。

本文提出了基于语义和规则的Web网页细粒度信息抽取方法,方法利用网页结构、分隔符和自然语言启发规则,逐步将网页细化,由粗粒度信息转换为细粒度信息,再通过语义和规则识别这些细粒度信息,形成结构化的网页属性项,达到Web网页信息抽取的目的。

2  方法描述

2.1         语义和规则模型理论研究

2.1.1       网页粒度理论

目前由于网络上的信息种类繁多,网页结构形式多变,大多数网页上还包含了许多广告、导航、热点链接等噪音信息,使得网页信息抽取变得非常复杂。参考人工智能的思想:当人在思考一个复杂的问题的时候,人们往往是由总体到部分,由粗到细,逐步进行观察和分析,最终找到比较合理的解决方法,因此可以将原有一次简单的抽取,改进为多次的分隔和抽取,最终获取到网页细粒度信息。根据对文献6的研究,借鉴粒度理论,制定如下网页粒度信息抽取思想:

1)不断将粗粒度的网页分割为若干细粒度的小对象,然后识别这些小对象,完成网页抽取;

2)不同的粒度形成层次关系,通过一定的抽取关系联系;

3)上一层的粒度是由下一层粒度抽取获得;

4)上一层的粒度比下一层的粒度高,信息更细致。

2.1.1.1      网页粒度抽取过程

网页中充满了很多无用的信息,例如广告、导航、热点链接噪声等,当对网页进行抽取时,需要首先对网页进行去噪或核心信息定位,此过程定义为网页粗粒子抽取。通过网页的粗粒子抽取,去除了网页的无关信息,缩小了查找范围,但网页的粗粒子信息还远达不到我们的抽取精确要求,需要进一步的划分。根据目前大部分网页的核心信息还是通过文本的形式展现,所以进一步的抽取,将是对粗粒度网页的文本内容和其他信息的分割。用户更愿意看到最终结果是简练而明确的信息传递,而不是大段文字的文本,所以在完成文本抽取后,还需要对文本核心内容进行提炼和抽取,此过程定义为细粒度抽取。

由上述过程所说,我们将网页的信息由粗到细分割,层层求精,最后抽取出合理满意的结构化信息,但是完成这一系列过程,需要对网页的结构和文本进行深入分析,制定科学粒度抽取规则。

2.1.1.2      网页粒度抽取规则

基于规则的信息抽取就是利用事先制定的规则,抽取符合约束条件的信息。基于规则的抽取是一种确定性的信息抽取模型[7],这就表示基于规则的信息抽取准确性较高,适用性会较差。根据上文2.1.1所说,现在的网页结构复杂、形式多样,又包含了多种形式的噪声,单纯的一次抽取是无法抽取到细致精确的信息,需要多次抽取。根据对文献8和文献9提出的规则优先级和分级制抽取思想,以及颗粒度理论的研究,本文制定出粒度抽取规则,将抽取规则划分为粗粒度规则和细粒度规则,粗粒度规则主要用于网页信息的初步过滤,减小查询范围和噪声去除;细粒度规则信息用于从确定范围信息文本段中抽取最终信息。粗粒度规则和细粒度规则抽取过程如图2-1所示

Web页面信息抽取可以看成信息不断过滤的过程,从网页的视觉分块角度来分析,网页中的核心信息载体,往往位于中心位置。粗粒度规则的目的就是将抽取的范围从较大的未知空间定位到较小的空间中,采用网页的布局、结构和标签具有一定的可靠性。粗粒度规则具有公共、松限的属性。当需要从网页中准确的抽取出所需的信息,采用语义中文本项、属性和属性值的概念、关键字、关系形成的抽取规则具有一定可靠性。利用这些针对性较强的规则,元素识别率准确,抽取精确度高。细粒度规则具有私有、约束和细致的属性。

图2-1 粗粒度规则和细粒度规则抽取流程图

2.1.2       网页结构特征分析

文献10把网页按照页面结构特征划分成首页式、列表式和正文式。因为信息的丰富和海量,迫使网站多以属性列表的形式,作为正文页面的导读。正文式页面作为信息的主要传递页面,正文的核心内容往往位于网页源文件的中部。利用这种页面外观上的显示规律,可以用于信息抽取,可以减少复杂语言学知识。

目前,互联网上的网页大多是HTML网页。HTML网页具有半结构化的特征,例如用DOM树来表现HTML页面时,内容块信息会保存在内容标签里,常见的内容标签有:<table><tr><td><p><div><span>[11]。这些半结构化的信息能够提供一些网页结构信息用于信息抽取。

从上述研究,可以得出以下结论:利用网页的布局、结构特征可以减少复杂语义规则构建;利用适合的标签分隔符可以将网页分隔成有用内容块和无用内容块,适合网页粗粒度过滤。

2.1.2.1      网页嵌套结构分解研究

在对大量的网页进行分析和实验的过程中,发现网页中存在着大量的内容标签嵌套结构,例如表中包含表、正文内容包含表。这些嵌套结构使得网页视觉上近似的结构化数据映射到网页源码上变成了半结构化数据。常见网页内容通过Table标签来展现,从视觉角度来分析网页,可以近似将表中每一项元素对应为抽取元素项,映射到网页源码操作过程就是抽取table标签的每个td标签内容。但是当表嵌套表时,直接抽取table标签下的td标签内容可能对应的是子表,无法直接对应抽取元素项,还需进一步对子表进行抽取。如果网页结构存在多层嵌套,这就使得视觉上看似具有结构的数据在网页源码上很难形成对应。

为了解决上述问题,利用嵌套形成的层次DOM树结构,采用DOM树后序遍历的方法进行数据映射,如图2-2所示。为了得到节点root的所有文本内容,按照后序遍历形成依次处理节点顺序((2)((5((89)6)7)3)(4)),这样由部分到整体,逐步分解节点内容。网页制作者在编写网页时,会将语义相关的信息放在一个节点中,采用后序遍历可以保留网页制作者在编写网页的时候,形成的文本项关联语义信息。

图2-2 网页结构嵌套

 

2.1.2.2      列表式页面粗粒度规则研究

根据对大量网页的研究,我们发现列表式页面一般具有如下特征:(1)页面上有多条记录,记录结构相似,这些记录形成一个列表数据区域;(2)记录条之间具有连续性,中间不包含其他的内容;(3)在网页DOM树中,这些记录拥有相同的父节点;(4)记录条里数据信息项都是简洁概括。如图2-3所示。

图2-3 列表重复属性

基于上述思路具有代表性的工

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值