版权说明:本论文为原创性文章,已经公开发表在《电脑知识与技术》2008年01期。未经许可不可剽窃、抄袭、转载,违者责任自负。引用者请注明出处如下:
赵文, 唐建雄, 高庆锋. 基于统计的中文网页正文抽取的研究[J]. 电脑知识与技术, 2008,Vol.1,No.1,P.120-123.
论文部分:
基于统计的中文网页正文抽取的研究
赵 文1 ,唐建雄2,高庆锋3
(武汉理工大学 计算机科学与技术学院,湖北 武汉 430063)
摘 要:信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。文中采用一种统计网页特征的方法,将中文网页中的正文部分抽取出来。该方法首先将网页表示成基于XML的DOM树形式,利用统计的节点信息从树中过滤掉噪音数据节点,最后再选取正文节点。该方法相比传统的基于包装器的抽取方法,具有简单,实用的特点,试验结果表明,该抽取方法准确率达到90%以上,具有很好的实用价值。
Content Extraction from Chinese Web Page
Based on Statistics
1.引言
随着互联网信息技术的不断发展,互联网的信息量也日益膨胀。近年来,全球因特网上的信息数据正以爆炸式的速度在增长。据IDC报告称,从现在到2010年,预计信息量将以每年57%的速度增长,在2010年信息总量将达到988EB (1EB=10亿GB),约为2006年的6倍,相当于有史以来所有书籍数字信息量的1800万倍。面对如此巨大的互联网信息库,如何快速、有效、经济地检索到某个主题的所有相关信息就成了当前一个十分热门的研究课题。这时,搜索引擎的出现无疑给人们带来了极大的方便。然而,随着互联网信息的不断巨增和搜索引擎所覆盖网页范围的不断扩大,人们发现,即使是借助搜索引擎的帮助,他们也越来越难有效和准确的找到自己所需要的信息资源。
众所周知,互联网上的资源是个很复杂的信息数据源。因此,为了更好的利用互联网资源,为了帮助人们更快速,更有效,更便捷的搜索到自己所需要的信息,就要利用各种数据挖掘方法,对巨大的互联网信息数据进行搜索,提取,分析和整理。其中最关键的步骤之一就是对互联网信息的抽取。
2.网页文本信息抽取技术
2.1基于分装器的网页文本信息抽取技术
该方法属于传统的网页信息抽取方法。它使用分装器(wrapper)[1][2]来抽取网页中感兴趣的数据。分装器
(也称为:包装器)是一个程序,它根据一定的信息模式识别知识从特定的信息源中抽取相关内容,并以特定形式加以表示。由于网页结构的复杂性及不规范性,一个包装器的实现一般只能针对一个信息源。因此,对特定的数据源需要编写对应的分装器或抽取规则。如果待抽取的信息是来自很多信息源,就需要很多分装器,这样分装器的生成和维护就成了一件复杂的工作。对于网络上大量各类网页的正文信息抽取,都使用特定分装器来完成显然是不合算的,人们需要的是一个普遍适用的分装器。文献[3]、[4]、[5]均采用这类技术,并结合了模式匹配和归纳式学习等技术,取得一定的效果,但实现起来相对比较复杂。
文献[6]提出一种基于统计的正文抽取方法。该方法克服了传统的网页内容抽取方法需要针对不同的数据源构造不同的包装器的缺点,具有一定的普遍性。但该方法对网页正文信息的抽取依赖阈值P和T,阈值P决定了选择网页正文的文本块,P值过大,这就存在正文文本块的漏选;P值过小,抽取结果就可能存在难以去除的噪声。实验结果表明,该方法对正文较少和table单元混有噪声的网页不能进行正确的抽取。
这类方法把数据挖掘技术应用到对网页自由文本的处理中,大大提高对网页正文(文章)抽取的准确率,突破了数据挖掘技术在应用方面对结构化数据的依赖,是一种很好的正文抽取技术。但仍然有一些普遍性问题有待进一步改善。以下两种正文抽取技术均属于这类方法。
文献[7]提出一种基于双层决策的网页正文抽取技术。该方法将对网页正文范围的全局决策和对决策范围内具体段落是否确是正文的局部决策这两个层面的决策有机结合,同时引入特征向量提取和决策树等方法来实现上述两个层面的自动决策。这种分层的思想既符合人们判断正文的步骤,又很好的满足了机器学习从不同层面提取各自特征的需要。实验表明,上述基于双层决策的方法能够精确地抽取出绝大部分新闻网页的正文。但该方法需要预先收集一定的页面并对正文进行人工标注,作为训练的样本语料,工序较为繁琐,另外对于有评论的新闻网页,正文较少的新闻网页和多板块的新闻网页的抽取精度有待进一步提高。
文献[8]提出一种基于线性化的段落划分聚类的网页正文抽取技术。该方法突破了网页结构树形化的束缚,提出了网页结构线性化的思想,采用将网页代码线性化重构,利用网页自身特点及文本分类思想进行文本块过滤,利用段落聚类得到网页正文。具体步骤包括,网页源代码线性化重构,HTML 噪声标签过滤,原始数据集过滤划分,段落聚类生成网页正文脉络段落,吸收伪噪声生成正文。该抽取方法准确度高、鲁棒性好、响应时间快。但也有些不完善的地方,如处理网页前置噪声的能力较弱,聚类算法的时间复杂度较高。
3.基于统计的网页正文抽取
本文的基本思想是采用基于统计的网页正文抽取技术,并在该方法的具体实现上加以一定的改进。有关网页正文抽取的几点说明如下:
(1)过去对正文的界定常常仅局限于文本内容,正文范围内的一些非文本的内容:如画中画、内嵌广告、插图、部分超链接文字等等,均被排除。根据对大量网页页面的分析研究发现,正文范围内的插图大多与正文相关,尤其是新闻网页,部分超链接也与正文相关联,如果这些信息全部被过滤掉,实际上就是丢弃了网页的一些有用信息。因此,应该把这些信息也作为正文的一部分,一并抽取。
(2)对于正文范围内的广告、与正文无关的超链接图片或文字等噪声数据,往往出现在单独的<table>或<div>标签中,这部分数据,是噪声数据,应该过滤删除。
(3)对于正文的标题,默认获取<title>标签中的文本作为正文的标题。
基于统计的网页正文抽取方法分为网页的规范化、网页的预处理、网页的噪声过滤、网页的正文抽取,四个步骤。下面将对这四个步骤一一进行详细的介绍。