面向半结构化数据的知识抽取

    半结构化数据是一种特殊的结构化数据形式,该形式的数据不符合关系数据库或其他形式的数据表形式结构,但又包含标签或其他标记来分离语义元素并保持记录和数据字段的层次结构。自万维网出现以来,半结构化数据越来越丰富,全文文档和数据库不再是唯一的数据形式,因此半结构化数据也成为知识获取的重要来源。目前,百科类数据、网页数据是可被用于知识获取的重要半结构化数据,本文将介绍面向此类数据的知识抽取方法。

面向百科类数据的知识抽取

    以维基百科为代表的百科类数据是典型的半结构化数据。在维基百科 中,词条页面结构如图所示,包含了词条标题、词条摘要、跨语言链 接、分类、信息框等要素,这些都是关于描述对象的半结构化数据。

在这里插入图片描述
维基百科词条页面结构

    因为词条包含丰富的半结构化数据,并且其中的信息具有较高的准确度,维基百科已经成为构建大规模知识图谱的重要数据来源。目前,基于维基百科已经构建起多个知识图谱,包括DBpedia和Yago等。随着中文百科站点的发展,如百度百科、互动百科,一些大规模的中文知识图谱也陆续基于百科数据被构建出来,包括Zhishi.me、XLore和CN—DBpedia等。在基于百

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值