半结构化数据是一种特殊的结构化数据形式,该形式的数据不符合关系数据库或其他形式的数据表形式结构,但又包含标签或其他标记来分离语义元素并保持记录和数据字段的层次结构。自万维网出现以来,半结构化数据越来越丰富,全文文档和数据库不再是唯一的数据形式,因此半结构化数据也成为知识获取的重要来源。目前,百科类数据、网页数据是可被用于知识获取的重要半结构化数据,本文将介绍面向此类数据的知识抽取方法。
面向百科类数据的知识抽取
以维基百科为代表的百科类数据是典型的半结构化数据。在维基百科 中,词条页面结构如图所示,包含了词条标题、词条摘要、跨语言链 接、分类、信息框等要素,这些都是关于描述对象的半结构化数据。
维基百科词条页面结构
因为词条包含丰富的半结构化数据,并且其中的信息具有较高的准确度,维基百科已经成为构建大规模知识图谱的重要数据来源。目前,基于维基百科已经构建起多个知识图谱,包括DBpedia和Yago等。随着中文百科站点的发展,如百度百科、互动百科,一些大规模的中文知识图谱也陆续基于百科数据被构建出来,包括Zhishi.me、XLore和CN—DBpedia等。在基于百