[原]基于统计的中文网页正文抽取的研究

本文研究了一种基于统计的中文网页正文抽取方法,通过网页的规范化、预处理、噪声过滤和正文抽取四个步骤,提高了抽取的准确率。方法针对网页结构复杂性和不规范性,避免了特定分装器的需求,但仍有噪声数据处理的挑战。试验表明,该方法准确率超过90%,具有较高的实用价值。
摘要由CSDN通过智能技术生成

版权说明:本论文为原创性文章,已经公开发表在《电脑知识与技术》2008年01期。未经许可不可剽窃、抄袭、转载,违者责任自负。引用者请注明出处如下:  

赵文, 唐建雄, 高庆锋. 基于统计的中文网页正文抽取的研究[J]. 电脑知识与技术, 2008,Vol.1,No.1,P.120-123.

 


 

论文部分:

基于统计的中文网页正文抽取的研究

赵 文1 ,唐建雄2,高庆锋3

 (武汉理工大学 计算机科学与技术学院,湖北 武汉 430063)

摘  要:信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。文中采用一种统计网页特征的方法,将中文网页中的正文部分抽取出来。该方法首先将网页表示成基于XML的DOM树形式,利用统计的节点信息从树中过滤掉噪音数据节点,最后再选取正文节点。该方法相比传统的基于包装器的抽取方法,具有简单,实用的特点,试验结果表明,该抽取方法准确率达到90%以上,具有很好的实用价值。

关键词:中文信息处理;信息抽取;正文抽取

中图分类号:TP391             文献标识码:A
 

Content Extraction from Chinese Web Page
 Based on Statistics

ZHAO Wen 1, TANG Jian-Xiong 2,Gao Qing-Feng 3
(1.Department of Computer Science and Technology, Wuhan University of Technology, Wuhan, Hubei 430063, China1; 2.Department of Computer Science and Technology, Wuhan University of Technology, Wuhan, Hubei 430063, China; 3.Department of Computer Science and Technology, Wuhan University of Technology, Wuhan, Hubei 430063, China)
 
Abstract: Information extraction is a kind of data mining technology which is widely used in Internet. The purpose is to extract meaningful and valuable information from the huge date of the Internet in order to make full use of the resource of the Internet. It extracts text content from Chinese web pages by a statistical approach in the article. The method uses a DOM tree based on XML to represent a web page according to HTML tags, and then deletes the noise node by statistical data of node, at last chooses the node which contains text content. In comparison with traditional methods based on wrappers, this method is more simple and useful. Experimental results show that the extraction precision is higher than 90%, and the method has good value of practice.

Key words: Chinese information processing; information extraction; content extraction
 

1.引言

随着互联网信息技术的不断发展,互联网的信息量也日益膨胀。近年来,全球因特网上的信息数据正以爆炸式的速度在增长。据IDC报告称,从现在到2010年,预计信息量将以每年57%的速度增长,在2010年信息总量将达到988EB (1EB=10亿GB),约为2006年的6倍,相当于有史以来所有书籍数字信息量的1800万倍。面对如此巨大的互联网信息库,如何快速、有效、经济地检索到某个主题的所有相关信息就成了当前一个十分热门的研究课题。这时,搜索引擎的出现无疑给人们带来了极大的方便。然而,随着互联网信息的不断巨增和搜索引擎所覆盖网页范围的不断扩大,人们发现,即使是借助搜索引擎的帮助,他们也越来越难有效和准确的找到自己所需要的信息资源。
        众所周知,互联网上的资源是个很复杂的信息数据源。因此,为了更好的利用互联网资源,为了帮助人们更快速,更有效,更便捷的搜索到自己所需要的信息,就要利用各种数据挖掘方法,对巨大的互联网信息数据进行搜索,提取,分析和整理。其中最关键的步骤之一就是对互联网信息的抽取。

2.网页文本信息抽取技术

2.1基于分装器的网页文本信息抽取技术

该方法属于传统的网页信息抽取方法。它使用分装器(wrapper)[1][2]来抽取网页中感兴趣的数据。分装器

(也称为:包装器)是一个程序,它根据一定的信息模式识别知识从特定的信息源中抽取相关内容,并以特定形式加以表示。由于网页结构的复杂性及不规范性,一个包装器的实现一般只能针对一个信息源。因此,对特定的数据源需要编写对应的分装器或抽取规则。如果待抽取的信息是来自很多信息源,就需要很多分装器,这样分装器的生成和维护就成了一件复杂的工作。对于网络上大量各类网页的正文信息抽取,都使用特定分装器来完成显然是不合算的,人们需要的是一个普遍适用的分装器。文献[3]、[4]、[5]均采用这类技术,并结合了模式匹配和归纳式学习等技术,取得一定的效果,但实现起来相对比较复杂。

2.2 基于统计的网页正文抽取技术

文献[6]提出一种基于统计的正文抽取方法。该方法克服了传统的网页内容抽取方法需要针对不同的数据源构造不同的包装器的缺点,具有一定的普遍性。但该方法对网页正文信息的抽取依赖阈值P和T,阈值P决定了选择网页正文的文本块,P值过大,这就存在正文文本块的漏选;P值过小,抽取结果就可能存在难以去除的噪声。实验结果表明,该方法对正文较少和table单元混有噪声的网页不能进行正确的抽取。

2.3 基于数据挖掘思想的网页正文抽取技术

这类方法把数据挖掘技术应用到对网页自由文本的处理中,大大提高对网页正文(文章)抽取的准确率,突破了数据挖掘技术在应用方面对结构化数据的依赖,是一种很好的正文抽取技术。但仍然有一些普遍性问题有待进一步改善。以下两种正文抽取技术均属于这类方法。

文献[7]提出一种基于双层决策的网页正文抽取技术。该方法将对网页正文范围的全局决策和对决策范围内具体段落是否确是正文的局部决策这两个层面的决策有机结合,同时引入特征向量提取和决策树等方法来实现上述两个层面的自动决策。这种分层的思想既符合人们判断正文的步骤,又很好的满足了机器学习从不同层面提取各自特征的需要。实验表明,上述基于双层决策的方法能够精确地抽取出绝大部分新闻网页的正文。但该方法需要预先收集一定的页面并对正文进行人工标注,作为训练的样本语料,工序较为繁琐,另外对于有评论的新闻网页,正文较少的新闻网页和多板块的新闻网页的抽取精度有待进一步提高。

文献[8]提出一种基于线性化的段落划分聚类的网页正文抽取技术。该方法突破了网页结构树形化的束缚,提出了网页结构线性化的思想,采用将网页代码线性化重构,利用网页自身特点及文本分类思想进行文本块过滤,利用段落聚类得到网页正文。具体步骤包括,网页源代码线性化重构,HTML 噪声标签过滤,原始数据集过滤划分,段落聚类生成网页正文脉络段落,吸收伪噪声生成正文。该抽取方法准确度高、鲁棒性好、响应时间快。但也有些不完善的地方,如处理网页前置噪声的能力较弱,聚类算法的时间复杂度较高。

3.基于统计的网页正文抽取

本文的基本思想是采用基于统计的网页正文抽取技术,并在该方法的具体实现上加以一定的改进。有关网页正文抽取的几点说明如下:

(1)过去对正文的界定常常仅局限于文本内容,正文范围内的一些非文本的内容:如画中画、内嵌广告、插图、部分超链接文字等等,均被排除。根据对大量网页页面的分析研究发现,正文范围内的插图大多与正文相关,尤其是新闻网页,部分超链接也与正文相关联,如果这些信息全部被过滤掉,实际上就是丢弃了网页的一些有用信息。因此,应该把这些信息也作为正文的一部分,一并抽取。
         (2)
对于正文范围内的广告、与正文无关的超链接图片或文字等噪声数据,往往出现在单独的<table><div>标签中,这部分数据,是噪声数据,应该过滤删除。
         
(3)对于正文的标题,默认获取<title>标签中的文本作为正文的标题。

基于统计的网页正文抽取方法分为网页的规范化、网页的预处理、网页的噪声过滤、网页的正文抽取,四个步骤。下面将对这四个步骤一一进行详细的介绍。

3.1 网页的规范化
由于某些原因,目前互联网上的大量网页存在许多不规范的地方,这对的抽取工作带来极大的不便,因此首先需要对网页进行规范化处理,将其转换成格式良好的 XML 文档。主要的规范化要求如下:
(1) 在网页的头部添加标准的 XML 声明。
如: <?xml version="1.0" encoding="UTF-8">
(2) 统一网页的编码形式。将编码为 GBK GB2312 UTF-8 等等的网页统一转换成 UTF-8 字符集编码形式。
评论 23
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值