基于维基百科的概念发现(综述)

本文以Paşca等人近期的三篇文献为基础,总结一下基于维基百科的概念发现方法。

基于规则的方法[1]

基于规则的概念发现方法[1]利用了维基百科词条正文中的词法模式、词条的形式变化以及与词条相关的类别信息,无需任何语言预处理工具,也不依赖于大写字母,并且可以迁移到其他语言中,总体精度和召回率分别为0.9和0.6。

词法模式证据要求词条正文中句子的任何片段匹配(不区分大小写)以下模式之一,那么该词条就是一个概念。

形式变化证据要求词条以单数和复数两种形式出现在词条正文中,那么该词条就是一个概念。

类别信息证据要求词条为单数形式,与该词条相关联的类别之一为其对应的复数形式,并且二者归一化后相同,那么该词条就是一个概念。

基于词汇特征和语义特征的方法[2]

前面基于规则的方法可获得较高的精确率,但是召回率仅0.6。基于词汇特征和语义特征的方法[2]从维基百科词条的正文中收集简单、轻量级的词汇特征,以及从维基百科外部获取的语义特征,作为检测词条是否是一个概念的证据。将现有评估集的各种组合方式用作训练数据与测试数据,获得的结果与仅基于规则的方法相比,可以更好地权衡精度和召回率。这种方法不需要任何语言预处理工具,且适用于多种语言。

从维基百科外部获取的语义特征来源于WikiData,其中维基百科词条与WikiData中的词条具有对应关系,WikiData明确包含词条的上位词并区分 InstanceOf 和 SubclassOf 关系。除此之外,WikiData还提供词条的属性信息,并将属性进行了连接。如果词条是一个上位词的实例( InstanceOf ),那么可通过这样的InstanceOf关系来判断词条是否是概念。而通过词条的属性信息是否具有特定的属性值,也可以判断词条是否是概念。

基于定义构造的方法[3]

基于定义构造的方法[3]可获取一组概念,这组短语涉及正在定义的概念,以及正在引入的其他概念。其中,定义构造基于IsA关系的获取,可识别维基百科中没有任何标记的概念。例如,“awalled garden is a garden [..],可获得概念awalled garden和garden。与仅关注正在定义的短语相比,基于定义构造的方法在多个评估集上都具有更好的精度和召回率。

定义构造如下所示,其中重点在于找到概念H的右界限,目前的方法是找到H右边的停用词或分隔符作为界限,其中停用词包括介词(例如,英语中的“about”、“from”,“ in”等)、代词(例如,英语中的“ whose”、“ that”、“ which”等)或句子终止符(“.”)。

 

参考文献:

[1] Paşca, Marius. "Finding Needles in an Encyclopedic Haystack: Detecting Classes Among Wikipedia Articles." Proceedings of the 2018 World Wide Web Conference. 2018.

[2] Paşca, Marius, and Travis Wolfe. "Lightweight Lexical and Semantic Evidence for Detecting Classes Among Wikipedia Articles." Proceedings of the Twelfth ACM International Conference on Web Search and Data Mining. 2019.

[3] Paşca, Marius. "Approximate Definitional Constructs as Lightweight Evidence for Detecting Classes Among Wikipedia Articles." Proceedings of the 28th ACM International Conference on Information and Knowledge Management. 2019.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值