语义网、本体知识、知识图谱
语言学知识可以在网络文本的信息处理中发挥作用,从而展示语言学研究可能的应用领域。
一、改善网络信息获取的两种途径
(1)更好的信息检索技术,更加便捷的检索系统
---更加智能的基于语义的搜索引擎
不断改进钓鱼的鱼钩、鱼竿或鱼线,甚至鱼饵
(2)让Web本身更加聪明、更加智能
为Web上的资源附加上计算机可以理解的内容,便于计算机更好地处理。
也就是给出一种计算机能够理解的表示网页等资源的语义内容,如架设语义网(Semantic Web)这种网络基础结构(infrastructure)的宏伟构想。
退而结网,准备大批量地捕捞大鱼
因为这种语义网要理解网页的语义和内容,就不可避免地依赖于知识及其表示方式。
于是,本体知识(Ontology,也译为知识本体)这种技术手段就自然提到了相关研究领域的议事日程了。
二、万维网WWW的历程及其发明者
自然语言的计算机信息处理,迫切需要各种句法、语义层面的语言知识资源,特别是词汇本体知识库(The Bank of Lexical Ontology)
这种知识是面向网络的语义计算和内容挖掘的一个重要的知识体系,一种跟语言相关的知识资源。
Tim Berners-Lee提出语义网的概念后,本体知识成为一个热门的研究话题。而这又推动了2012年以来的知识图谱。
数字计算机、计算机网络,局部网络,更大的网络。
不同的计算机互联,必须有一个数据交换的协议和标准。
美,英,法计算机行业,全面的计算机网络标准,开放系统互联(Open System Interconnect,OSI)
1969,美国防部,首个分组交换网络,ARPANET
1974,Vint Cerf、Bob Kahn。《IEEE通信学报》--分组网络互通协议,TCP/IP。
1983,美国国防部,在ARPANET中使用TCP/IP,标志着互联网的诞生。
1990,Tim Berners-Lee设计HTML。World Wide Web的初次实现
1991,Tim Berners-Lee推出WWW的应用
但是,在20世纪90年代后期、21世纪初期,发明万维网的Tim Berners-Lee又提出惊世骇俗的预言:万维网将会被语义网所取代。在他规划和设计的语义网体系结构里面,有一个层次就是本体知识体系。这个本体知识体系对信息处理非常重要,它依托于词汇语义的细致刻画和形式化与标准化的描述。
三、语义网的构想
3.1 语义网概观(Overview of Semantic Web)
虽然现在万维网(WWW)发展非常迅速,但是它至今仍然只是供人们交换文件的载体(as a medium of documents for people),其中的信息是机器不能自动运用的。
我们针对计算机增加专门提供给计算机阅读的网页,那么就可以把现有的网络转变成语义网。
在语义网上,电脑可以借超链接找到关键词的定义,用关键词做逻辑推理,从而取得语义资料的意义。这个基底构架的完成,将促进网上自动化服务的蓬勃发展,比如有高阶功能的网络代理。
一般使用者只要选用任何协助标示语义的现成的软件,就能定义新词汇、增加新的推理规则,自行架设语义网页。
3.2 表达意义(Expressing Meaning)
目前,电脑没有可靠的方法处理语义。
语义网把网页中有意义的内容结构化,以此建立一个环境,让网络代理可以在网页间漫游,完成使用者交付的各项工作。
语义网并不是另一个独立的网络,而是当前网络的延伸。
如同互联网,语义网将尽可能分散开。
3.3 知识表示(Knowledge Representation)
为了使语义网发挥其功能,电脑必须取得结构化知识库和一组推理规则,才能自动推理。这项技术被称为“知识表示”。知识表示有极大的应用潜力,但是必须把它连进单一的全球系统才能充分发挥作用。
语义网的挑战是要提供一种新的语言,既能表达资料和对资料进行推理的规则,又能接受任何现有的放在网络上的知识表示系统的推理规则。
语义网构建者面临的挑战是,把逻辑加到网上,让网络有使用规则做推理、选择下一步动作及回答问题的能力。此事相当复杂,因为它同时涉及数学和工程两方面的决策。加在网上的逻辑必须强到足以能描述物体的复杂属性,但又不能强到让网络代理连悖论都列入考虑。
XML:让使用者赋予文件任何结构,但不规定结构含义
RDF:编入成套的三元组(triple)。每个三元组就像一个基本句子有主语、动词和宾语一样。
URI
3.4 本体知识(Ontologies)
本体知识指的是在形式上对词与词之间的关系做出明确定义的档案或文件。最典型的为网络设立的本体知识都有一个分类法和一组推理规则。
3.5 网络代理(Agent)
一项重要功能:交换以语义网统一写出的“证据”。
在这里,所谓统一语言,指用规则和靠本体知识说明的信息来表达逻辑的推理的语言。
四、语义网的体系结构
第一层:UNICODE处理资源的编码,URI负责标识资源
第二层:XML+NS+xmlschema,用以标识数据的内容和结构
第三层:RDF+rdfschmema,用以描述Web上的资源及其类型
第四层:Ontology vocabulary层,用以描述各种资源之间的联系
第五层到第七层:在上面四层的基础上进行的逻辑推理操作
Ontology:通过对概念严格的定义和概念之间的关系来确定概念的精确含义,表示共同认可的、可共享的知识。因此,在语义网中,Ontology具有非常重要的地位,是解决语义层次上Web信息共享和交换的基础。
五、本体知识的类型及其建构的困难
本体知识作为一种规范化和形式化的知识分类体系(taxonomy)和概念化体系,可以根据其对于领域的依赖程度分为4种:
(1)顶级本体知识(top-level Ontology):描述的是跨领域的普通概念及概念之间的关系。比如,人类生活最核心的空间、时间、事件、行为等概念。
(2)领域本体知识(domain Ontology):描述的是特定垂直领域(医药、汽车、教育、娱乐等)中的概念及概念之间的关系。
(3)任务本体知识(task Ontology):描述的是特定任务或行为中的概念和概念之间的关系。
(4)应用本体知识(application Ontology):描述的是依赖于特定领域和任务的概念及概念之间的关系。比如,关于体育赛事的自动问答所需要的各种概念及其关系。
英语WordNet
汉语HowNet:跟词汇直接相关的本体知识体系,为“词汇本体知识”。
本体知识是一种对于领域范围大小不一的客观世界或其知识概念的描写规范,其内容核心具体地表现为一个概念分类体系。
这种问题,正好也是语言学中词汇的语义分类或词典学中的义类划分所关心的。
六、语义网的杀手级应用:维基百科
维基百科(Wikipedia)就是对语义网的一种杀手级应用(killer application),它用一种亿万网民协同(所谓群体智慧和众包crowd resourcing)构建百科全书的方式,促进了知识资源的快速增长,在知识类型、覆盖范围和内容规模上都达到了前所未有的程度。
七、从语义网到知识图谱
从上面的介绍可以看出,在语义网的构架中,本体知识(主要是知识的分类体系)和实例数据的描写(其集合就是数据库)是分离的,那么有没有一种表示形式或数据结构能够把它们统一起来,形成一种一体化的知识表示呢?
在具体实现上,知识图谱用前述语义网中的资源描述框架对知识体系和实例数据两个层面的内容进行统一的表示,共同构成一个完整的知识系统。
知识图谱实质上是一种语义网络(semantic network)、其结点(nodes)代表实体或概念,有向边(directed edge)代表实体/概念之间的各种语义关系。
r(h,t)
语法学上论元结构P(a,b)述谓结构
动词、形容词和名词的配价研究,是可以为知识图谱的建构提供知识资源的。
对于自然语言处理研究来说,人们很希望利用知识图谱来发现自然语言文本中的实体关系。但是,如果没有合适的句法语义信息词典作为词典来提供从概念到词汇和句式的沟通与连接,这个工作是不太容易进行的。
《北京大学现代汉语实词句法语义功能信息词典》简称《实词信息词典》,发现这部词典对于实体关系的识别、对于实体之间的关系的解释或扩展与推理,可以提供链接文本、甚至符号落实(symbol grounding)的功能。