汉语句法知识的自动获取研究

  汉语句法知识的自动获取研究
            周强 智能技术与系统国家重点实验室 清华大学计算机科学与技术系,北京100084

    摘要:本文提出了一种行之有效的汉语句法知识自动获取体系。以浅层句法分析作为预处理工具,并结合现有的概率分析器,可以从大规模真实文本中自动习得汉语概率型上下文无关规则和结构优先关系等有用的句法知识,从而形成一个具有自学习能力的汉语句法分析器。实验结果显示出其较好的分析性能和应用前景。
    关键词:句法分析,机器学习,知识获取

    一、引言

    句法分析是自然语言理解的基础。近几年来,随着语料库语言学的不断发展和标注语料库规模的不断扩大,许多研究人员开始尝试着直接利用语料库中的标注信息进行语法分析,开创了一条进行自动句法分析的新路。在英语方面,典型的研究工作包括:1)折R.Bod的面向数据分析(Data Oriented Parsing)技术([RB93],[RB92]),2)模拟退火(Simulated Annealing分析方法[SD91],3)David M.Magerman的概率型判定树方法([DM95],[DM94]),4).E.Brill的基于转换(Transformation-based)的处理[EB93]等。在汉语方面,我们也进行了一些类似的研究,提出了一个完全基于统计信息的汉语概率分析器[ZQ97a]。它将完整的句法分析问题分解为以下三个阶段:①成分边界预测,②括号匹配和分析树生成,③统计排歧。通过充分利用从树库中获取的各种统计信息,取得了较好自动分析效果。
    以上研究都强调了树库在句法分析和知识获取方面的重要作用。在英语方面,由于己有现有的包含数百万词规模的树库[MSM93]可以利用,因此可以方便地进行各种基于统计的句法分析算法的探索。而在汉语方面,目前还没有开发出一个较大规模的树库(我们所做的研究是在小规模的树库上进行的)。这就迫使我们在句法知识的自动获取方面寻找一条新的出路。
    事实上,从树库中直接获取句法知识,反映了一种有指导学习的思想,其代价是需要花费大量的人力物力构建大规模的树库。与此相反,无指导训练虽然可以直接在原始文本上进行学习,但其代价是训练算法的复杂度很高,往往需要花费大量的训练时间,并且得到的训练结果也不尽如人意。因此,一个合理的研究思路是在两者之间寻找一个平衡点,即对知识获取问题进行细致的任务分解,建立不同层次的知识描述体系,通过对训练文本进行不同层次的预加工,把不同层次的语言知识逐步引入无指导训练过程中,形成一种“部分”指导训练机制,从而大大降低训练算法的复杂度,同时又不至于在预加工阶段花费太大,达到一种最佳的整体训练效果。
    本文介绍了我们从这个思路出发所进行的一些研究工作,包括:1)提出了一种描述能力介于线形词语/词类标记序列和完整的句法树之间的浅层句法知识描述体系:组块分析体系,在此基础上可以方便地进行自动句法分析和知识获取研究(第2节),2)探索了不同句法知识的自动获取方法(第3节),主要包括汉语概率型上下文无关语法规则和结构优先关系,3)开发了一个自学习的汉语概率分析器(第4节)。

    二、组块分析体系

    给定一句经过正确切词和词性标注处理的汉语句子,我们的组块分析体系试图对其中不同层次的成分边界信息给出较为详细的描述。它主要包括以下两部分内容:
    1)词界块WB(Word Boundary Block):描述了句子中每个词语所处的成分边界位置信息,
    2)成分组CG(Constituent Group):描述了句子具有如下分布特点的一些特殊成分域:I)区域中的词界块只能与区域中的其他词界块发生句法作用,II)整个区域作为一个整体与句子中的其他成分发生句法作用。目前我们总结的成分组主要有以下几种:a)并列结构和并列成分;b)固定搭配组合及内部结构;c)标点分融结构。
    由于组块描述的简单性和灵活性,使我们可以方便地构造出各种快速有效的识别工具,对组块边界信息进行自动预测。通过对这些工具的有效组合,我们形成了如下的组块自动识别机制:
    首先,利用特殊的结构特征和词语特征,构造有限状态自动机,顺序识别句子中的下列成分组:1)并列结构;2)固定搭配结构;3)标点分隔结构。在此过程中,应保证识别出的各个成分组不发生信息冲突现象,即各个成分组边界不应发生交叉。然后,利用己识别出的成分组边界信息,设置相应的词语块边界标记。顺序检索句子,可以得到一些待处理的词语块段(span),即成分组内部区域和成分组之间的区域。最后,对这些待处理段,顺序调用词语块的成分边界自动预测工具,可以得到句子中其他词语块的成分边界标记[ZQ99]。
    这种自顶向下的识别流程,可以充分发挥两种识别工具各自的处理优势,减少许多无效的操作,大大提高了整体的识别效率。对包含5573个句子的汉语语料进行了组块自动识别实验。封闭测试结果为:界定预测正确率为95%,成分组边界平均正确率为93%。可以为句法知识自动获取工具提供较好的预处理数据。

    三、汉语句法知识的自动获取研究

    我们认为,以下知识在句法分析和排歧中具有重要作用:
    1)概率型上下文无关语法(Probabilistic Context-Free Grammar,PCFG)知识
    概率型上下文无关语法(PCFG)通过为每条产生式规则指派一个概率值,扩展了标准的上下文无关语法(CFG)描述体系,即A→λ,P(A→λ),并且满足以下的概率一致化条件:∑P(A→λ)=1。利用这个分布概率值,我们可以很方便地应用概率论中很完备的计算工具来完成句法排歧任务。
    2)结构优先关系(Structure Preference Relation,SPR)知识
    它的基本形式为{}.它试图对一些基本歧义结构进行定量分析和描述.考虑结构组合"A B C",如果其中的成分B既可以和左边的A形成合法的成分"A B",也可以与右边C形成合法的成分"B C",那么此结构组合就称为一个交段结构(IS),其中的成分B则称为交段成分(IC)。通过统计真实语料中交段成分在交段结构IS的局部语境中与左边的结构项组合形成的结构实例出现的频度(LF)和与右边的结构项组合形成的结构实例出现的频度(RF),我们得到了不同的SPR项<IS,LF,RF>。它们可以在基于优先的局部句法排歧中发挥重要作用。
    3)典型歧义结构及其排歧知识
    在上面获取的交段结构中,有一部分结构具有以下特点:a)出现频度较高(LF+RF>a);b)交段成分的左向和右向组合能力差别不大(|LP-RP|<=β),我们称之为典型歧义结构。对它们的排歧处理往往需要利用丰富的词汇、语义信息,但这些排歧知识的获取,对提高句法分析器的处理精度有重要作用。
    我们的目标是从经过组块分析预处理的训练文本中,自动获取有关汉语的以上知识。为此,我们采取了这样的处理策略:
    1)利用句法规则自动构造工具,从一组人工总结的结构元规则出发,自动生成比较完整的汉语上下文无关语法规则集。
    2)利用改进的期望最大〈EM〉迭代训练算法,针对不同领域、不同体裁的训练样本,自动训练得到分布最佳的CFG规则概率值,形成最适合于此训练样本PCFG规则集。
    3)使用自动训练得到的PCFG规则集,对训练样本进行自动分析,得到句子的完整的句法分析树,通过树遍历算法,自动发现其中的交段结构实例,形成SPR描述项。
    4)通过设置阈值(α=10,β=0.4),可以从上面发现的SPR表中,提取出典型歧义结构描述项,然后在此信息控制下,遍历分析树,得到典型歧义结构组合实例,通过机器学习方法,可以从中获取有用的典型歧义结构排歧信息。
    有关以上各个算法的详细内容,可分别参阅论文([ZH98a],[ZH98b],[QFF00]。下面几节将对有关内容作一些简要说明。

    3.l汉语旬法规则的自动构造
    我们的研究目标是在现有的词类标记集和句法标记集基础上,自动构造枚举出所有合法的汉语句法规则形式。利用上下文无关文法(CFG)形式化描述体系,即形成这样的语法三元组(VT,VN,R),其中:VT为终结符集合,即词类标记集:VN为非终结符集合,即句法标记集:R为VT和VN上的一组上下文无关产生式规则,其基本形式为:A→λ,AεVN,λε{VT∪VN}。
    在汉语的句法描述体系中,短语成分起了承上启下的作用,它具有与汉语句子基本一致的构造方法,这和英语的短语有很大差别。朱德熙先生认为,“如果我们把各类词组的结构和功能都足够详细地描写清楚了,那么句子的结构实际上也就描写清楚了,因为句子不过是独立的词组而已”([Zhu85],P74)。汉语句法构成的这一特点,使我们可以从汉语的基本短语结构形式出发,寻找到一条自动构造汉语句法规则的新途径。
    汉语短语的基本构造规律可以概括为:1)结构完备律:所有短语都可以归结为定中、状中、述补、述宾、连动、联合、主谓等基本结构类型[FX91]。2)中心限制律:除主谓结构外,每个短语的外部功能基本上可以由其中心成分确定。3)成分位置律:不同句法成分在短语结构组合中所处的位置是由其自身的句法功能确定的,如动词可以处于述宾结构的述语位置,而名词则不行。
    以此为基础,我们形成了这样的汉语句法规则自动构造系统的开发设想:1)总结了一组句法特征,据此可以很方便地描述不同的结构组合类型,形成结构元规则集。2)根据句法功能的不同,为各个标记符(词类标记或句法标记)确定合适的句法特征描述,形成标记特征表。3)确定处于结构中心成分位置的句法成分所能体现的外部句法功能标记,形成中心标记表。
    这样,以两个标记集(词类标记集和句法标记集)为句法规则生成单元,以三个数据表(句法元规则集、标记特征表和中心标记表)为规则生成控制单元,通过构造一个元规则解释器,就可以自动得到比较完整的符合汉语句法构成规律的规则集.表1列出了汉语句法规则的自动构造实验结果。利用这个自动构造的句法规则集,并辅之以经人工总结和树库统计得到的特殊规则形式,可以形成一个比较完整的汉语概率型上下文无关语法(PCFG)初始规则集,它在汉语PCFG自动推导研究中将发挥重要的作用。
    表1句法规则自动构造工具的实验数据
词类标记数目  句法标记数目  句法特征数目  元规则数目  自动生成的句法规则数目
    41            19             13          24                958

    3.2汉语概率型上下文无关语法的自动推导
    我们的汉语PCFG规则自动推导算法的基本设计思想是:1)在经过组块分析预处理的语料文本上,利用匹配控制机制实现一个改进的EM训练算法。考虑到汉语句法描述的复杂性,我们采用了比较容易进行自动分析的浅层的组块信息描述,但它仍保留了对训练文本较强的句法边界限制作用,并可以通过引入各种有效的匹配控制机制达到较高的处理效率。2)利用不同的知识源,设置了合适的初始规则集。通过句法规则自动构造、人工总结和树库统计相结合的策略,在目前的词类标记和句法标记集基础上,提取出了绝大部分符合汉语句法规律的CFG规则,并利用树库统计信息设置了合适的初始概率值,从而形成了一个覆盖面广、分布比较合理PCFG初始规则集,保证了训练算法的收敛效果。
    3.2.1规则概率参数的训练和估计
    利用EM算法对PCFG的规则概率参数进行迭代估计,主要分为以下两个阶段:
    1)E-阶段:在给定的训练文本和当前规则概率的基础上,计算每条PCFG规则被使用的期望值。
    2)M-阶段:利用所得的期望值,重置规则参数,以达到更好的概率分布情况。
    这个过程不断法代进行,直至概率参数达到收敛。EM算法将保证得到至少是局部最优的参数估计值。
    在我们的匹配分析机制中,PCFG规则的使用是和匹配操作直接联系在一起的。
    迭代终止条件的判断主要利用了信息论中的交叉熵(cross entropy)概念。当相邻两次送代的交叉熵的差值小于某个阔值γ时,迭代终止。在我们目前的算法中,选择了γ=0.001。
    3.2.2初始PCFG规则集的形成
    以自动生成的句法规则集为基础,并通过以下两个途径补充一些特殊的组合规则,可以形成一个基本上包含所有合法的汉语句法结构组合的规则集RS。
    1)人工总结的句法规则:可以将一些不宜通过元规则描述的特殊结构,如“所”字结构、“似的”结构等,很好地描述出来;
    2)树库统计得到的句法规则:其中可能包含了一些在人工标注语料库过程中发现的不太符合三条基本句法构造规律的特殊规则,如以动词为中心成分的定中结构名词短语规则:np→r uJDE v(他们的学习)等。为避免一些偶然的标注错误带来的负面影响,设置了一个概率阀值β=0.001),将统计概率小于β,且出现频度为1的规则排除出去。
    而对其中各个句法规则的初始概率值的设定,则主要利用了树库统计规则的概率分布信息:首先,通过设置一个概率阙值α(=0.01),从已排除了偶发错误的统计规则库中提取出一部分高频规则,形成规则子集UTS={A→λ|P(A→λ)α}。然后,为RS中所有包含量相同左部标记的句法规则子集A选择这样一个基本概率值:BPA=min(0.9,Σ{P(A→)|P(A→λ)>α})
    据此,就可以按照以下方式为RS中的所有规则设置初始概率值:
    l P(A→λ)=BPA/N,如果N为满足此条件的规则总数。
    l P(A→λ)=(1-BPA)/M,如果A→λεUTS,M为满足此条件的规则总数。

    3.3汉语结构优先关系的自动获取
    根据SPR中的交段结构在分析树中的组合方式的不同,可以把它分成两大类:
    1)紧合结构SPR
    SPR中的交段结构最终组合形成分析树中的一个句法成分,如图1中的情况a)和c),其中a)为交段左向组合实例,c)为交段右向组合实例。


    2)松散结构SPR
    SPR中的交段结构的交段前境、交段成分和交段后境分别与其相邻左成分或右成分组合成新的句法成分,如图1的情况b)和d),其中b)为交段左向组合实例,d)为交段右向组合实例。
    利用SPR的这些结构特点,我们形成了这样的SPR自动获取算法:首先利用自动训练得到的PCFG规则集,对训练文本进行自动分析预处理,产生训练例句的完整分析树(森林),它以Tomita的压缩共享森林(PSF)[Tom186]形式表示出来,而不是仅仅选取其中的一棵最佳分析树,并且分析树(森林)中的每个成分节点上都带有成分内概率和外概率信息。然后遍历分析树,在每个非叶子节点上发现可能的交段结构实例,再检查SPR交段结构的合理性并设置其频度信息。下面列出了分析树遍历函数的基本流程:
分析树遍历函数TreeSearch
    l ·如果树节点R是非叶子节点,则
         ·发现紧合结构SPR
         ·发现松散结构SPR
         ·检查SPR交段结构的合理性并计算其预期频度;
         ·对每个子节点Ni,循环调用Treesearch(Ni)
    l 否则,返回-
    3.3.1紧合结构SPR的发现
    3.3.2松散结构SPR的发现
    3.3.3交段结构的分布频度计算

    四、一个自学习的汉语概率分析器

    将上一节介绍的儿个句法知识自动获取工具与现有的汉语概率分析器[ZQ97a]相结合,我们形成了一个自学习的汉语概率分析器。其主要特点是:给定一组具有领域特征的新语料文本,不再需要人工开发适合于该领域的句法知识库,或投入一定的人力物力构建一个较大规模的树库,然后利用统计工具从中习得有用的句法知识集,而只需利用句法知识自动获取工具就能从中自动提所需的句法知识,以此作为句法分析器的核心知识,可以大大提高分析器对这种新语料的适应性,取得最佳的自动分析效果。图2显示了自学习的汉语概率分析器的总体结构。

    输入一句经过正确切分和词性标注处理的汉语句子,其基本处理流程为:首先进行组块自动识别,得到句子的组块描述形式。然后利用匹配分析算法[ZQ97b],自底向上地生成句子的句法树(或森林)。在此过程中,利用自动习得的SPR和PCFG知识进行局部剪技和全局排歧,最终可以得到句子的最佳分析树。下面简单介绍其中所采用的两种排歧方法。
    1)基于SPR知识的局部剪枝
    2)基于PCFG知识的全局排歧
    我们利用20万词的汉语树库对目前的句法分析器进行封闭测试。分析器所用的知识是自动得的基于词类和句法标记的分布数据,包括:①词语界定预测知识库;②概率型上下文无关语法规则(PCFG)库;③汉语结构优先关系(SPR)库。实验结果显示成分正确率和成分招回率分别为75.43%和76.91%。考虑到目前的测试树库的复杂性(平均句子长度达到了26.55个词,60%以上的句子的长度超过20个词),这个自动分析效果还是比较令人满意的。
    对自动分析错误进行检查发现,其中50%以上的错误是由典型歧义结构引起的。因此,在今后的研究中,通过加入针对典型歧义结构自动习得的基于词汇或语义的排歧知识,可以期望使自动分析精度得到进一步提高。

    五、结语

    在大规模语料库上进行句法知识的自动获取研究,是当前国际计算语言学界研究的前沿课题。本文针对汉语的特点,通过综合运用各种先进的处理技术,构建了一个行之有效的汉语句法知识自动获取体系,它的主要特点是:l)通过开发各种高效的成分边界自动识别工具,可以将一些浅层句法知识引入训练语料中;2)通过开发句法规则自动生成工具,可以充分利用汉语语言学的最新研究成果,构造形成覆盖各种汉语语言现象的初始规则集;3)利用具有严格的数学理论基础的迭代算法进行自动训练,可以比较全面客观地获取不同句法规则在真实语料中的统计分布数据;4)基于真实文本的汉语结构优先关系表和典型歧义结构排歧规则的自动获取工具,可以习得大量有用的局部排歧知识。尽管目前在小规模的语料库上已取得了较为令人满意的学习效果,但要把这种方法真正推广到大规模的真实文本语料库上,还有许多问题有待探索。
    从英语语料库语言学的发展历程看,基于语料库的知识获取研究总是和对语料库的不断“深加工”以及基于语料库的自动分析方法的探索紧密相关、互为推进的。从60年代的一百万词次规模的带有词性标记的布朗语料库,到现在的几百万词次规模的标有正确句法树以及谓词--论元(predicate-argument)关系的树库语料,经过30多年的努力,国外已经建立了标有各种丰富的句法信息的大规模的英语语料库,这就为进行更深层次的知识获取和语言模型构建研究打下了扎实的基础。虽然我们目前已建成了一个20万词规模的汉语树库,并形成了一套比较完整的句法树标注体系,但在数量和规模上还是远远不够的。将来,在这方面还有很多路要走。
    下一步的研究设想是:1)在更大规模(>100万词)的真实语料文本上的知识获取实验;2)汉语语料库句法标注规范的确定和完善,包括:多层次的块(chunk)边界确定与标注;骨架(skeleton)形式的句法分析树标注;谓词--论元(predicate-argument)关系的发现和标注;3)更深层次的知识获取方法探索,包括:基于词汇(Lexical-Based)的知识和基于语义(Semantics-Based)的知识。

    转载自《中国中文信息学会二十周年学术会议》 清华大学出版社  2001年

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值