HNC理论概要*

HNC(概念层次网络)理论

参考:

http://www.hackchi.com/hnc/books/hnc/bookml.html

 

 HNC是“Hierarchical Network Concepts(概念层次网络)”的简称,它是面向整个自然语言理解的理论框架。这个理论框架是以语义表达为基础的,它对语义的表达是概念化、层次化、网络化的,所以称它为概念层次网络理论

1 HNC理论的形成

    自然语言处理作为人工智能的一个分支,已有40年的发展历程,形成了计算语言学这一跨接语言、信息、认知科学和计算机技术的边缘学科。它的发展主要围绕以下三个方面:

1、自然语言的表述和处理模式;

2、自然语言知识的表示、获取和学习;

3、研制开发自然语言的应用系统。

    在自然语言的表述和处理模式方面,源于印欧语系的语法学和句法分析一直居于主导地位。八大词类、六种句子成分、短语结构句法树成为语言分析的基本概念和依托。对于这一传统分析模式,仅在20世纪70年代,曾一度受到菲尔墨(Fillmore)和山克(Schank)的质疑和挑战。80年代以来,语料库语言学的兴起使人们对统计模式产生了过高的期望,以致忽视了菲-山挑战的实质意义。参见人工智能点评

    自然语言传统分析模式(含统计模式)的根本弱点何在?一言以蔽之,它不是描述语言感知过程的适当模式。

    面对语音流的五重模糊(发音模糊、音词转换模糊、词的多义模糊、语义块构成的分合模糊、指代冗缺模糊),面对文字流后三重模糊,大脑的语言感知应付裕如,表现了强大的解模糊能力,自然语言处理技术当前无从望其项背。

    近20年来,自然语言处理囿于传统模式,不图突破。参见批判提示但是,它所面临的所有重大课题,从音词转换机器翻译,从全文检索、信息抽取到智能阅读助手,都在呼唤语言表述及处理新模式的诞生;呼唤上下文联想处理向“知其所以然”的语义理解前进;呼唤向语言感知方向靠拢。随着网络时代的来临,这一呼唤的迫切性和严峻性在与日俱增。

    响应这一呼唤才意味着真正的突破,但突破的契机何在?悲观论者认为:语言感知过程p3密切依附于大脑中万亿神经元的神经网络,依附于浩瀚无垠的世界知识海洋,在对这个“网络”和“海洋”的奥秘未作充分揭示之前,模拟语言感知过程是不现实的。背景知识:1964年,美国科学院成立语言自动处理咨询委员会(简称ALPAC委员会),调查机器翻译的研究情况,并于1966年11月公布了一个题为《语言与机器》的报告,简称ALPAC报告,对机器翻译采取否定的态度,报告宣称:“在目前给机器翻译以大力支持还没有多少理由。”报告还指出,机器翻译研究遇到了难以克服的“语义障碍”。在ALPAC报告的影响下,许多国家的机器翻译研究进入低潮,许多已经建立起来的机器翻译研究单位遇到了行政上和经费上的困难,在世界范围内,机器翻译的热潮突然消失了,出现了空前萧条的局面。摘自《自然语言的计算机处理》p408 ,冯志伟,1996年10月

    事情果真是如此悲观的么?HNC理论对此进行了8年的探索,结论是,突破的契机是存在的,其要点是:

    1、要把自然语言所表达的知识划分为概念、语言和常识三个独立的层面,对不同层面采取不同的知识表示策略和学习方式,形成各自的知识库系统。

    2、建立网络式概念基元符号体系,即概念表述的数学表示式。这个符号体系或表示式应具有语义完备性,能够与自然语言的词语建立起语义映射关系,同时,它必须是高度数字化的,每一个符号基元(每个字母或数字)都具有确定的意义,可充当概念联想的激活因子。这个符号体系就是下文将要详细介绍的三大语义网络五元组等,它是计算机把握并理解语言概念的基本前提。

    3、建立语句的语义表述模式,即语句表述的数学表示式。这一模式的完备性应表现为可表述自然语言任何语句的语义结构,即乔姆斯基所提出的语言深层结构。这个深层结构就是下文将要简要介绍的句类格式。以句类格式为基点的语句分析叫做句类分析,是对大脑语言感知过程的初步模拟,在上述五重模糊或三重模糊的消解方面,理论上,句类分析应能接近甚至超过常人的水准。

    上述三点是形成HNC理论的基本背景。

    但是,解模糊处理仅仅是自然语言理解的万里长征的第一步,仅涉及HNC理解处理系统(本文第三部分有简略介绍)的部分模块。作为自然语言的一种表述和处理模式,HNC是开放的,并处于不断完善和深化的过程,在这一过程中,更需要不同学科的合作,特别是信息处理与语言学的合作,在8年的艰苦探索过程中作者深深感到这一合作的迫切性。现在这一合作的势态已初步形成,正是在合作者的鼓励和具体推动下(林杏光1997),HNC理论首次公开发表论文,主要目的在于扩大这一合作的势态。

2 HNC理论的基本内容

    人对语言的理解本质上是一种认知行为,如果能描述大脑认知结构的具体模式,计算机就可以运用这些模式对自然语言进行理解处理。我们把认知结构分为局部全局两类联想脉络,认为对联想脉络的表述是语言深层(即语言的语义层面)的根本问题。什么是局部联想全局联想呢?简单地说,局部联想是指词汇层面的联想,全局联想是指语句及篇章层面的联想。更简单地说,理解句子有两种思路:一是从组成句子的词语入手,一是从句子的整体结构和上下文语境入手,前者就是局部联想,后者就是全局联想。当然,人在理解句子的时候,这两种联想不是截然分开的,而是并存的、相互作用的,计算机理解语言也应该综合运用这两类联想脉络。HNC的出发点就是通过建立两类联想脉络来“帮助”计算机理解自然语言。下面就分别介绍HNC建立的两类联想脉络。p4

    2.1 局部联想脉络——五元组和语义网络

    局部联想是词汇层面的联想,自然语言的词汇是用来表达概念的,因此,HNC建立的局部联想脉络体现为一个概念表述体系,这个概念表述体系可以简单概括如下:把概念分为抽象概念具体概念,对抽象概念五元组语义网络来表达,对具体概念采取挂靠展开近似表达方法。   

    概念有抽象具体之分。在一般人看来,抽象概念总是比具体概念难于把握,中文信息处理界已有的汉语语义分类系统,其内容主要是对比较容易把握的具体概念的分类,这样的语义分类系统没有摆脱对客观事物进行科学分类的束缚,对抽象概念则几乎束手无策。参见批判提示实际上,从深层来讲,抽象概念具体概念更具有基元性、系统性,更容易表达;具体概念是客观存在物在人的思维中的一种直接反映,它里面包含了许多世界知识,而对世界知识是很难进行详尽表达的。所幸的是,人对具体概念理解和认识的深度可以比抽象概念浅,所以可以采取实用原则,“不求甚解”。HNC理论侧重于抽象概念的表达。

    HNC理论通过五元组语义网络层次符号来完整地表达抽象概念,前者表达抽象概念的外在表现,后者表达抽象概念的内涵。

    任何一个概念都有需要从不同侧面予以表达,这种现象叫做概念的多元性表现具体概念多元性表现十分复杂,难以给出规范化的表达,抽象概念则有所不同,它的多元性表现在自然语言中有明显的迹象,这就是词性现象。印欧语系的词根或具有词根特色的词,可以加上不同的后缀分别构成动词、名词、形容词和副词,这种词性的转

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值