基于HNC语境理论的文本分类

基于HNC语境理论的文本分类

王文峰1  唐兴全2

北京大正语言知识处理研究院 北京 100081

                    对外经贸大学中文系 北京 100083

1 Wangwenfeng2008@hotmail.com, 2 tang_xq@hotmail.com

摘要:本文从HNC语境理论来分析现在中文信息处理的一个热门话题——中文文本分类。HNC理论认为只有深入到语境层面,理解语句及篇章,才能更好的完成文本分类的工作。本文介绍了一种新的文本语义形式化模型——语境框架。语境框架是一个三维的语义描述,他把文本内容抽象成领域(静态范畴)、情景(动态范畴)、背景(褒贬、参照等)三个框架。并在语境框架的基础上,设计实现了文本特征提取算法。

关键词:HNC 语境框架 文本分类

The Text Classifies based on the HNC theory

Wang Wenfeng1  Tang Xingquan2

1 Linguistry Management Institute&Com.Ltd, Dazheng, Beijing 100081

2 department of Chinese University of international business and economics  Beijing 100083

 1 Wangwenfeng2008@hotmail.com, 2 tang_xq@hotmail.com

Abstract:This article analyzes the present Chinese information processing from the HNC linguistic environment theory that is a hot topic of discussion - - Chinese text classification. The HNC theory thinks only when penetrated into the linguisticenvironmentstratification plane and understood the sentence as well the chapter ,which can complete the work of the text classification further. This article introduces a kind of new text semantics formalization model - - linguistic environment frame. The linguistic environment frame is a three dimensional semantic description, which abstractly offers the text content to the following three frames : the domain (static category), the scene (dynamic category), the background (appraisal, reference and so on). And according to the linguistic environment frame, the design has realized the text characteristic extraction algorithm.

Key word: HNC  Linguistic environment frame  Text classification

1.引言

当前的文本分类主要是基于机器学习的方法构建分类器,通过训练获得相对加号的分类器参数。也有的文本自动分类系统中采用了规则的方法,或者将规则与统计相结合形成混合系统。

而无论是字、词还是概念为特征项,都是把一篇文章拆解为若干次或者概念的简单叠加,没有考虑词语的顺序和次序之间的相互影响。如果在文本分类中引入一定的自然语言理解的处理,那么分类将会更加合理。我们使用概念层次网络(Hierarchical Network of Concepts,简称HNC)理论中的语境理论作了分析尝试,在语境框架的基础上,设计实现了文本特征的提取算法。算法从语义入手,实现了领域提取,以领域句类为核心的情景提取,和对象语义立场的判断。

本文首先将介绍语境框架,再详细阐述算法特征提取的设计与实现,最后给出该语境领域在实际中的应用。

2. HNC语境理论的简介

  HNC理论中的语境是对文本内容的形式化描述结构,HNC理论认为一个文本的语境(ABS)是由文章中所有的句群提供的语境单元构成的,语境单元包括三维:领域(DOM)、情景(SIT)、背景(BAC)。“领域”描述事件的类型,“情景”描述事件的作用效应链表现,而“背景”又区分为“事件背景”(BACE)和“述者背景”(BACA),“事件背景”描述事件发生的主客观条件,“述者背景”描述叙述者或论述者的特定视野。

3. 语境框架

  语境框架是特征提取算法的语义模型,是黄曾阳先生提出的文本内容形式化结构。他把信息抽象成三个侧面:1.所属的领域:政治、经济、军事等。2.所关涉的对象和内容,以及对象之间的语义关系。3.所在的背景环境:时间、空间、目的、参照等等。三个侧面构成语境三要素:领域、情景、背景。

3.1背景框架

背景框架以事件的背景类型为中心。包括:基本背景信息,以及陈述中心的时间空间信息、作者的参照点、目的,还有褒贬倾向等。基本背景信息包括文本来源、语言类型、日期等。如果是议论文,则还包括作者本人的背景情况,如年代、立场、所属国家等。

背景主要分为两部分,一部分是文章背景,另一部分是内容背景。文章背景就包含了BACA和篇章来源等信息。大部分文章中这些信息都是不全的,甚至是完全没有的。内容背景主要是各种辅块,其中非常重要的是条件辅块,包括时间辅块、空间辅块等等。背景的获得对于进一步限定分类条件非常重要。

3.2  领域

领域以事件为中心,描述事件核心所归属的范畴。HNC理论为领域分析定义了10个一级子类,还可以进行进一步细分为更多领域子类。在领域分析中,需要注意不同的语义角色对领域的决定性不同,根据DOM准则,其优先顺序为Eg>El>C>B=A。在一个语句中,一但选定具有决定意义的语义角色就不再考虑其它语义角色,并且选取上述语义角色的核心进行分析。HNC从概念上把领域分为11大类,有300多个一级分类,每个一级分类都可以扩展细分,任意两个领域之间也可以组合。下面给出部分领域的定义。其中,第一部分是领域的编号,第二部分是它的文字定义。

.a 第一类专业活动(包括政治、经济、军事、法律等8个二级子类)

.a2 经济,a21制造业,a24 金融业,a26技术经济,λ6(λ=6,9,c)

第二类专业活动(包括农业、服务业等5个二级子类)

3.3  情景框架

情景分析要首先确定分析的对象。从全篇来看,我们选取语句涉及的对象已大为减少,但情景分析不能也没有必要全部分析这些对象,因此首先要归并对象。对象之间的归并分为两种情况:1)重复出现的对象;2)非重复但有关联的对象。通过指代关系、形式结构和概念之间的关联可以发现同一、部分整体和并列等关系。通过表示关系的句类及其混合句类可以发现其它的关系。情景框架以事件的特定参与者为中心,包括各参与者以及他们之间的语义关系。比如:

上周五,美国商务部部长古铁雷斯宣布,将对来自中国的铜版纸产品征收临时反补贴税。

这个句子的基本信息就是中国企业应归美国的商务贸易纠纷。领域句类a25a(对外进出口贸易),来源于征收,因此它的情景框架是所给出的句类(即动作类别)和HNC语义符号):核心:征收(XT10*31)(va25*1Vv3ae01),征收者:美国(XA[fpj2Vjx63e22])以上就是贸易征收的情景框架。每个领域和句类结合都可以生成一个情景框架,一级情景框架的总数是300*(57+3192)=974700个(其中,一级领域为300个,句类包括57组类似于反应句的基本句类,以及它们之间相互混合构成的57*56=3192个混合句类)。每个情景框架都可以根据句类知识给出预期。

3.4  文本特征描述

语境框架是一个三维空间,是高度数字化的语义结构,因此它是文本内容的高度抽象。由于语境框架从静态范畴、特征之间的语义关系、以及特征之间的褒贬倾向等三个方面来综合描述文本的内容,因此用它作为文本特征,可以较好地反应文本的内在关系。对句群、段落、篇章分析,可以得到不同颗粒度的语境框架和不同层次的文本特征。句群语境是语境的最小单位,本文的特征提取算法建立在句群语境基础上。

4. 特征提取算法的文本示例

  算法的输入是自然语言表示的文本,输出是语境框架。算法的基本思路是:通过语义分析,把自然语言映射到语义符号上,然后分析各个语义角色之间的语义关系,和各个角色对句群的贡献,最后通过动态记忆抽取出语境框架。

4.1 语义分析

该系统采用的语义分析技术是HNC句类分析技术。句类分析可以给出句子的语义结构、各组成成分之间的语义关系。

例如: 参与这个计划的俄罗斯企业也遇到了一些严重的问题。

句类分析给出的语义结构是:Y90J=

          YB(效应对象)    参与这个计划的俄罗斯企业(pea2)  

          Y90(效应的动作)   遇到了(v39e61)

          YC(效应内容)    一些严重的问题(gr53821)

其中,Y90J是句子所属的句类;YB、Y90、YC是语义块名,分别指出了效应对象和效应的内容。

4.2 领域提取

领域提取的过程就是确定信息描述核心的过程。HNC领域的分类是以语义为准的进行的语义分类,可以直接从内容中提取具有组合性好等特点。同时也面临着新的任务是:

1.如何从一个句子中提取句子所属领域;

2.如何从多个句子的领域集合中,确定句群的领域;

3.如何识别多个领域的交叉复合。

我们定义为一个四元组:(D,S,R,G),其中,D是领域类别,S是提取位置的语义,R是提取位置的语义角色,G为D的领域级别。所有可能的领域构成一个4元组集合DCanSet,提取的结果是领域候选集DSet。

领域提取的算法为:

1.从输入的句类分析结果的所有词汇语义中,得到所有的可能的领域,形成DCanSet;

领域信息蕴含在相关词语的HNC语义符号中。

2.按照一下算法对DCanSet排序;

a) 语义角色优先性排序:Eg > El > C > B|A。

领域首先取于整句语义核心(Eg);其次取于小句的语义核心(El);再次取于与语义核心强相关的抽象概念,最后取于所有具体概念。

b)级别大小排序。比如:专业活动领域的级别大于心理活动领域。

3.按照领域的类别,对DCanset的前n项进行复合;

复合的结果是生成新的领域,或者对某个领域加权。比如:改革竞争是活动很重要的一面,因此对经济领域和改革竞争进行复合的结果是对经济加权,权值为1。

4.给出复合后的前m个领域,作为领域的候选集DSet。

4.3 情景生成

情景生成的任务是生成有预期知识的情景框架,并填充之。情景框架的BNF范式描述是:

<情景框架>::=<领域句类>#<核心情景单元>{<对象情景单元>}#

<领域句类>::=<领域><句类>

<领域>::=a0|a1|a4|……(300个高层定义以及它们的混合)

<句类>::=X|Y|T|D|R|……(57组基本句类和3192个混合句类)

<核心情景单元>::=<核心对象OB><对象情景单元个数>

<核心对象>::=<对象>

<对象情景单元个数>::=2|3|4

<对象情景单元>::=<对象单元预期知识><对象>

情景生成算法如下:

1.根据领域候选集DSet,确定领域句类;

a)当领域来自句子(或小句)的语义核心Eg(或El)时,它指示的句类是领域句类;

b)当领域来自某个对象内容时,他所在的句类就是领域句类;

C)当领域来自不同句类时,领域句类是他们所在的句类的混合,混合的方式根据领域来源的语义块关系确定。

2.根据领域句类确定核心情景单元,并生成对象情景单元的预期知识;

核心情景就是领域句类所在的句子的核心语义块。对象情景单元的预期知识包括:领域句类的句类知识,包括句类词(指决定句类的词)的预期知识。

3.根据对象单元的预期知识,填充对象;

a)根据句类预期知识,确定每个单元需要填充的类型。只含对象的单元,填充符合要求的具体概念;含内容C的语义块,进行具体概念和抽象概念提取;

b)把符合预期的对象的HNC语义符号、语义表现、语义角色等一起填充。

4.进行框架归一;把句群中不同句子中相同语义的内容填充到同一单元中。

4.4背景生成

背景信息主要蕴含在某些HNC语义符号中,因此背景生成主要是寻找特定的概念。其算法如下:

1.填充基本背景信息;

2.直接从相关的词汇中提取时间、空间、目的等概念(这里给出一些有代表性词语的语义表示):

.条件:陈述中心的时间(j1)空间(j2)信息。如:中国fpj2*101

.目的:主要蕴含在对偶性中层概念中,如下面的e61,e62分别表示不同的目的。

.支持v943e61;v902e61  反对v943e62;v902e62

3.确定参照点;根据时间、地点、语言类型等判断参照点;在某些关系概念中就直接蕴含着参照,如:我国pj2+g400e31(汉语的“我国”指示出参照点是中国)。

5. 结束语

HNC概念符号表达式是词语的一种语义表达,它能够表达出词语之间的语义相关性,因此用它作为特征能够获得较好的分类效果。本文只是在这方面作了初步探索,并选取了一种比较直接的方法将HNC符号表达式转化为特征。事实上,HNC概念符号表达式中蕴含了丰富的概念联想脉络,概念基元内部和概念基元之间的组合都包含了大量的语义信息,这对于文本分类是非常有价值的,如何利用这些信息还有待于进一步的研究。本文在语境框架基础上,运用了算法的知识设计实现了文本特征提取算法。

参考文献:

[1] 晋耀红 苗传江,一个基于语境框架的文本特征提取算法

[2] 黄曾阳,HNC(概念层次网络)理论,清华大学出版社,1998

[3] 苗传江,HNC(概念次网络)理论导论,清华大学出版社,2005

[4] 晋耀红,基于语境框架的文本相似度计算,计算机工程与应用

[5] 张运良,基于简化语境的文本分类初探

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值