基于维基百科的概念发现（综述）

最新推荐文章于 2023-01-07 12:09:46 发布

咸鱼不会翻身吗

最新推荐文章于 2023-01-07 12:09:46 发布

阅读量377

点赞数

分类专栏：概念发现维基百科概念文章标签：知识图谱

本文链接：https://blog.csdn.net/wynlnlhhjy/article/details/107201497

版权

概念发现同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

维基百科概念

1 篇文章 0 订阅

订阅专栏

本文以Paşca等人近期的三篇文献为基础，总结一下基于维基百科的概念发现方法。

基于规则的方法[1]

基于规则的概念发现方法[1]利用了维基百科词条正文中的词法模式、词条的形式变化以及与词条相关的类别信息，无需任何语言预处理工具，也不依赖于大写字母，并且可以迁移到其他语言中，总体精度和召回率分别为0.9和0.6。

词法模式证据要求词条正文中句子的任何片段匹配（不区分大小写）以下模式之一，那么该词条就是一个概念。

形式变化证据要求词条以单数和复数两种形式出现在词条正文中，那么该词条就是一个概念。

类别信息证据要求词条为单数形式，与该词条相关联的类别之一为其对应的复数形式，并且二者归一化后相同，那么该词条就是一个概念。

基于词汇特征和语义特征的方法[2]

前面基于规则的方法可获得较高的精确率，但是召回率仅0.6。基于词汇特征和语义特征的方法[2]从维基百科词条的正文中收集简单、轻量级的词汇特征，以及从维基百科外部获取的语义特征，作为检测词条是否是一个概念的证据。将现有评估集的各种组合方式用作训练数据与测试数据，获得的结果与仅基于规则的方法相比，可以更好地权衡精度和召回率。这种方法不需要任何语言预处理工具，且适用于多种语言。

从维基百科外部获取的语义特征来源于WikiData，其中维基百科词条与WikiData中的词条具有对应关系，WikiData明确包含词条的上位词并区分 InstanceOf 和 SubclassOf 关系。除此之外，WikiData还提供词条的属性信息，并将属性进行了连接。如果词条是一个上位词的实例( InstanceOf )，那么可通过这样的InstanceOf关系来判断词条是否是概念。而通过词条的属性信息是否具有特定的属性值，也可以判断词条是否是概念。

基于定义构造的方法[3]

基于定义构造的方法[3]可获取一组概念，这组短语涉及正在定义的概念，以及正在引入的其他概念。其中，定义构造基于IsA关系的获取，可识别维基百科中没有任何标记的概念。例如，“awalled garden is a garden [..]，可获得概念awalled garden和garden。与仅关注正在定义的短语相比，基于定义构造的方法在多个评估集上都具有更好的精度和召回率。

定义构造如下所示，其中重点在于找到概念H的右界限，目前的方法是找到H右边的停用词或分隔符作为界限，其中停用词包括介词（例如，英语中的“about”、“from”，“ in”等）、代词（例如，英语中的“ whose”、“ that”、“ which”等）或句子终止符（“.”）。

参考文献：

[1] Paşca, Marius. "Finding Needles in an Encyclopedic Haystack: Detecting Classes Among Wikipedia Articles." Proceedings of the 2018 World Wide Web Conference. 2018.

[2] Paşca, Marius, and Travis Wolfe. "Lightweight Lexical and Semantic Evidence for Detecting Classes Among Wikipedia Articles." Proceedings of the Twelfth ACM International Conference on Web Search and Data Mining. 2019.

[3] Paşca, Marius. "Approximate Definitional Constructs as Lightweight Evidence for Detecting Classes Among Wikipedia Articles." Proceedings of the 28th ACM International Conference on Information and Knowledge Management. 2019.