本文以Paşca等人近期的三篇文献为基础,总结一下基于维基百科的概念发现方法。
基于规则的方法[1]
基于规则的概念发现方法[1]利用了维基百科词条正文中的词法模式、词条的形式变化以及与词条相关的类别信息,无需任何语言预处理工具,也不依赖于大写字母,并且可以迁移到其他语言中,总体精度和召回率分别为0.9和0.6。
词法模式证据要求词条正文中句子的任何片段匹配(不区分大小写)以下模式之一,那么该词条就是一个概念。
形式变化证据要求词条以单数和复数两种形式出现在词条正文中,那么该词条就是一个概念。
类别信息证据要求词条为单数形式,与该词条相关联的类别之一为其对应的复数形式,并且二者归一化后相同,那么该词条就是一个概念。
基于词汇特征和语义特征的方法[2]
前面基于规则的方法可获得较高的精确率,但是召回率仅0.6。基于词汇特征和语义特征的方法[2]从维基百科词条的正文中收集简单、轻量级的词汇特征,以及从维基百科外部获取的语义特征,作为检测词条是否是一个概念的证据。将现有评估集的各种组合方式用作训练数据与测试数据,获得的结果与仅基于规则的方法相比,可以更好地权衡精度和召回率。这种方法不需要任何语言预处理工具,且适用于多种语言。
从维基百科外部获取的语义特征来源于WikiData,其中维基百科词条与WikiData中的词条具有对应关系,WikiData明确包含词条的上位词并区分 InstanceOf 和 SubclassOf 关系。除此之外,WikiData还提供词条的属性信息,并将属性进行了连接。如果词条是一个上位词的实例( InstanceOf ),那么可通过这样的InstanceOf关系来判断词条是否是概念。而通过词条的属性信息是否具有特定的属性值,也可以判断词条是否是概念。
基于定义构造的方法[3]
基于定义构造的方法[3]可获取一组概念,这组短语涉及正在定义的概念,以及正在引入的其他概念。其中,定义构造基于IsA关系的获取,可识别维基百科中没有任何标记的概念。例如,“awalled garden is a garden [..],可获得概念awalled garden和garden。与仅关注正在定义的短语相比,基于定义构造的方法在多个评估集上都具有更好的精度和召回率。
定义构造如下所示,其中重点在于找到概念H的右界限,目前的方法是找到H右边的停用词或分隔符作为界限,其中停用词包括介词(例如,英语中的“about”、“from”,“ in”等)、代词(例如,英语中的“ whose”、“ that”、“ which”等)或句子终止符(“.”)。
参考文献:
[1] Paşca, Marius. "Finding Needles in an Encyclopedic Haystack: Detecting Classes Among Wikipedia Articles." Proceedings of the 2018 World Wide Web Conference. 2018.
[2] Paşca, Marius, and Travis Wolfe. "Lightweight Lexical and Semantic Evidence for Detecting Classes Among Wikipedia Articles." Proceedings of the Twelfth ACM International Conference on Web Search and Data Mining. 2019.
[3] Paşca, Marius. "Approximate Definitional Constructs as Lightweight Evidence for Detecting Classes Among Wikipedia Articles." Proceedings of the 28th ACM International Conference on Information and Knowledge Management. 2019.