本体建设的方法论

最新推荐文章于 2023-03-03 15:41:13 发布

zl198183

最新推荐文章于 2023-03-03 15:41:13 发布

阅读量1.2k

点赞数

文章标签： documentation 文档语言工作 validation structure

本文链接：https://blog.csdn.net/zl198183/article/details/1900266

版权

导读：

　　1. Mike Ushold &Micheal Gruninger的 Skeletal Methodology（骨架法）[12]

　　他们提出的建设本体的方法包括如下步骤：

　　识别目的和范围（Identify Purpose and Scope）

　　这个阶段需要弄清楚为什么要建立本体？建好后的用途有哪些？使用该本体的用户范围是什么？等。

　　建设本体（Building the Ontology）

　　本体捕获（ontology capture）

　　本体捕获包括：（1）相关领域中关键概念和关系的识别；（2）这些概念和关系的精确无二义的文本定义的产生；（3）表达这些概念和关系的术语的识别；（4）在以上三点上达成一致。这一过程再细分为以下步骤：

　　1> Scoping：

　　a) 通过头脑风暴法（Brainstorming）产生所有潜在相关的术语和短语。

　　b) 进行分组（Grouping）：对应于自然产生的子组，将这些术语松散地组成工作区（Structure the terms loosely into work areas corresponding to naturally arising sub-groups）。

　　2> Produce Definitions

　　a) 决定下一步做什么？

　　i. 决定元本体（Determining Meta-Ontology）：先不急于提交任何的元本体，而是仔细考虑概念和它们的内部关系，尽量考虑各种可能性。

　　ii. 工作区（Work Areas）：依次考虑每个工作区。首选那种和其他工作区有最多的语义重叠的先作。

　　iii. 术语（Terms）：采用了middle-out的方法。首先定义每个工作区中最基本的术语，再定义更抽象或者更具体的。

　　b) 达成一致

　　i. 处理二义性的术语（Handling Ambiguous Terms）：选定一个合适的术语来表达这种概念，避免使用二义性的术语。

　　ii. 指导方针（Guidelines）：产生一个自然语言文本的定义；确保一致性；指出关系；避免环状定义的术语；提供必要的补充信息使术语的定义更有效；在合适的地方给出例子。

　　iii. 造词（Wording）：权衡技术准确性和清晰。

　　3> Review

　　4> Meta-Ontology：设计一个元本体。

　　本体编码（ontology coding）

　　该阶段是利用某种形式化语言显式地表现上个阶段的概念化成果。涉及到：（1）作为meta-ontology的基本术语的确定；（2）选择一种表现语言（能够支持meta-ontology）；（3）编码。

　　集成现有本体（integrating existing ontologies）

　　在达成一致方面有很多工作需要完成。

　　评价（Evaluation）

　　并没有提出自己的评价方法。《引用了Gomez－Perez关于evaluation的定义，需要参见更多的文章》。

　　文档化（Documentation）

　　目前很多知识库和本体缺少文档也是一种知识共享的障碍，这些文档应该包括本体中定义的主要概念、meta-ontology等。

　　某些编辑器可以自动生成这些文档。

　　每阶段的指导方针（Guidelines for each phase）

　　把设计本体的初始的指导方针总结为以下设计标准（重点在于共享和重用）：清楚（Clarity）、一致（Coherence）、可扩展性（Extensibility）、最小本体的承诺（Minimal ontological commitment）、最小的编码偏差（Minimal encoding bias）。

　　2. Micheal Gruninger &Mark. S Fox的企业建模法（TOVE）

　　TOVE Ontology Project是多伦多大学Enterprise Integration Laboratory的一个项目，它的目标是建立一套为商业和公共企业建模的集成本体，并且已经建成了相关本体。作为该项目的一部分，他们设计了一套创建和评价本体的方法“Enterprise Modelling Methodology”。该方法包括如下几个步骤[13]：

　　1> 激发场景（Motivating Scenario）

　　应用领域的某些场景激发了本体的建设，因此，给出一个场景有助于理解建设本体的动机。

　　2> 非形式化的能力问题（Informal Competency Questions）

　　提出一个本体应该能够回答的各种问题，作为需求。通过指明能力问题和场景之间的关系，可以对新扩展的本体进行一定的非形式化的判断。也是一种初始的评价，来判断是否需要扩展本体，或者现有本体是不是已经可以涵盖所提出的非形式化问题。

　　3> 一阶逻辑表达的术语规格说明（Specification in first-Order Logic-Terminology）

　　识别领域中的对象，并用一阶逻辑等方式表达出本体中的术语。

　　4> 形式化的能力问题（Formal Competency Questions）

　　用形式化的术语把非形式化的能力问题定义出来。

　　5> 一阶逻辑表达的公理规格说明（Specification in first-Order Logic-Axioms）

　　本体中的公理指定了术语的定义以及约束。采用本体中的谓词将公理定义为一阶逻辑的句子。这只是本体的规格说明，并不是本体的实现。

　　6> 完备性定理（Completeness Theorems）

　　当能力问题都被形式化的表述之后，必须定义在什么条件下这些问题的解决方案是完备的。

　　在[12]中去掉了一阶逻辑作为描述语言的限制，把该方法表达成：

　　1> 动机的确定（Capture of motivating scenarios）

　　2> 非形式化能力问题的形式化（Formulation of informal competency questions）

　　3> 采用一种形式化语言编写该本体术语的规格说明书（Specification of the terminology of the ontology within a formal language such as first-order logic）

　　4> 使用该本体的术语把非形式化的能力问题形式化（Formulation of formal competency questions using the terminology of the ontology）

　　5> 采用形式化语言编写关于该本体中术语的公理和定义的规格说明书（Specification of axioms and definitions for the terms in the ontology within the formal language）

　　6> （Justification of the axioms and definitions by proving characterisation theorems）

　　3. Mariano Fernandez &GOMEZ-PEREZ等的“METHONTOLOGY”[14]

　　在介绍METHONTOLOGY之前，本文简单介绍了一下本体的开发过程和生命周期。作者总结本体的开发过程包括如下活动：计划（plan）、详细说明（specify）、获取知识（capturing knowledge）、概念化（conceptualize）、形式化（formalize）、集成（integrate）、实现（implement）、评价（evaluate）、文档化（documentation）、维护（maintain）。本体的生命周期依次分为以下状态：详细说明（specification）、概念化（conceptualization）、形式化（formalization）、集成（integration）、实现（implementation）和维护（maintenance）。下图表现了这些活动和状态之间的关系。

　　作者称METHONTOLOGY方法是结合了骨架法和GOMEZ-PEREZ方法（也是本文作者之一，该方法参照下图右边所示，只是METHONTOLOGY的前身，不再论述）后，提出的一种更为通用的本体建设方法。

　　METHONTOLOGY是一种建设本体的结构化方法，介绍如下：

　　1> 规格说明书（Specification）

　　该阶段要产生一份以自然语言编写的非形式化的、半形式化的、或者形式化的本体规格说明书。至少包括以下信息：本体的目的（预期的用途、场景和最终用户等）、实现本体的形式化程度、范围（包括要表达的术语集、它们的特性和粒度）。

　　虽然无法确保规格说明书的完整性，但是必须保证一个好的本体规格说明书应该满足以下性质：

　　简洁（每个术语都是相关的，没有无关或者重复的术语）

　　部分完整性（术语的覆盖范围、每个术语的问题和粒度）

　　一致性（每个术语及含义都在领域内有意义）

　　2> 知识获取（Knowledge Acquisition）

　　知识的来源很多，可以是：专家、书籍、手册、数字、表格、甚至是其他的本体。从这些数据源获得知识的关联技术包括：头脑风暴法、访谈、文本的形式化或非形式化的分析和一些知识获取工具。

　　3> 概念化（Conceptualization）

　　该活动将领域知识组织成概念模型，用规格说明书中识别的领域词汇表描述问题和解决方案。生成的概念模型允许最终用户（a）确定一个本体是否有用，并且对于某个给定应用不需要查看源代码就是可用的（b）比较数个本体的范围、完整性、可重用性、共享性。

　　4> 集成（Integration）

　　重用别的本体中已经建好的定义时，可以：

　　a）查看元本体，选择适合自己概念模型的。

　　b）选择和自己概念模型中的语义和实现一致的术语定义。

　　5> 实现（Implementation）

　　用任何一种形式化的语言编码实现本体。需要一套开发环境的支持，至少包括：词法和语法分析器、翻译器、编辑器、浏览器、搜索器、评价器、自动维护工具。

　　6> 评价（Evaluation）

　　评价是指在本体生命周期的每个阶段和阶段之间，利用某种参考框架对本体、软件环境、文档进行技术判断。评价包括正确性（verification）和有效性（validation）。

　　7> 文档化（Documentation）

　　在本体建设的全过程中每个阶段都应该有对应的文档。

　　4. Alexander Maedche等的Cyclic Acquisition Process[15]

　　Maedche有一系列关于从文本中抽取领域本体的文章，提出了这种本体获取的方法论，它是一种环状的结构。

　　1> 环形的起点是一个通用的核心本体的选择。

　　任何大型的通用本体（像Cyc、Dahlgren的本体）、词汇-语义网（像WordNet, GermaNet）、或者领域相关的本体（像TOVE）都可以作为这个过程的开始。选定基础本体后，用户必须确定用于抽取领域相关实体的文本。

　　2> 从选择的文本中获取领域相关的概念，并建立概念之间的分类关系。

　　3> 除去领域无关的概念，只留下和领域相关的。这时，建立起了目标本体的概念结构。

　　4> 从基础本体中会继承一些关系，其他的关系需要通过学习的方法从文本中抽取。

　　5> 对得到的领域相关的本体进行评价，还可以进一步的重复上述过程。

本文转自

http://soa.5d6d.com/redirect.php?fid=4&tid=75&goto=nextnewset