基于HNC语境理论的文本分类
王文峰1
北京大正语言知识处理研究院 北京 100081
1 Wangwenfeng2008@hotmail.com, 2 tang_xq@hotmail.com
摘要:本文从HNC语境理论来分析现在中文信息处理的一个热门话题——中文文本分类。HNC理论认为只有深入到语境层面,理解语句及篇章,才能更好的完成文本分类的工作。本文介绍了一种新的文本语义形式化模型——语境框架。语境框架是一个三维的语义描述,他把文本内容抽象成领域(静态范畴)、情景(动态范畴)、背景(褒贬、参照等)三个框架。并在语境框架的基础上,设计实现了文本特征提取算法。
关键词:HNC 语境框架 文本分类
The Text Classifies based on the HNC theory
Wang Wenfeng1
1 Linguistry Management Institute&Com.Ltd, Dazheng, Beijing 100081
2 department of Chinese University of international business and economics
Abstract:This article analyzes the present Chinese information processing from the HNC linguistic environment theory that is a hot topic of discussion - - Chinese text classification. The HNC theory thinks only when penetrated into the linguisticenvironmentstr
Key word: HNC
1.引言
当前的文本分类主要是基于机器学习的方法构建分类器,通过训练获得相对加号的分类器参数。也有的文本自动分类系统中采用了规则的方法,或者将规则与统计相结合形成混合系统。
而无论是字、词还是概念为特征项,都是把一篇文章拆解为若干次或者概念的简单叠加,没有考虑词语的顺序和次序之间的相互影响。如果在文本分类中引入一定的自然语言理解的处理,那么分类将会更加合理。我们使用概念层次网络(Hierarchical Network of Concepts,简称HNC)理论中的语境理论作了分析尝试,在语境框架的基础上,设计实现了文本特征的提取算法。算法从语义入手,实现了领域提取,以领域句类为核心的情景提取,和对象语义立场的判断。
本文首先将介绍语境框架,再详细阐述算法特征提取的设计与实现,最后给出该语境领域在实际中的应用。
2. HNC语境理论的简介
HNC理论中的语境是对文本内容的形式化描述结构,HNC理论认为一个文本的语境(ABS)是由文章中所有的句群提供的语境单元构成的,语境单元包括三维:领域(DOM)、情景(SIT)、背景(BAC)。“领域”描述事件的类型,“情景”描述事件的作用效应链表现,而“背景”又区分为“事件背景”(BACE)和“述者背景”(BACA),“事件背景”描述事件发生的主客观条件,“述者背景”描述叙述者或论述者的特定视野。
3. 语境框架
语境框架是特征提取算法的语义模型,是黄曾阳先生提出的文本内容形式化结构。他把信息抽象成三个侧面:1.所属的领域:政治、经济、军事等。2.所关涉的对象和内容,以及对象之间的语义关系。3.所在的背景环境:时间、空间、目的、参照等等。三个侧面构成语境三要素:领域、情景、背景。
3.1背景框架
背景框架以事件的背景类型为中心。包括:基本背景信息,以及陈述中心的时间空间信息、作者的参照点、目的,还有褒贬倾向等。基本背景信息包括文本来源、语言类型、日期等。如果是议论文,则还包括作者本人的背景情况,如年代、立场、所属国家等。
背景主要分为两部分,一部分是文章背景,另一部分是内容背景。文章背景就包含了BACA和篇章来源等信息。大部分文章中这些信息都是不全的,甚至是完全没有的。内容背景主要是各种辅块,其中非常重要的是条件辅块,包括时间辅块、空间辅块等等。背景的获得对于进一步限定分类条件非常重要。
3.2
领域以事件为中心,描述事件核心所归属的范畴。HNC理论为领域分析定义了10个一级子类,还可以进行进一步细分为更多领域子类。在领域分析中,需要注意不同的语义角色对领域的决定性不同,根据DOM准则,其优先顺序为Eg>El>C>B=A。在一个语句中,一但选定具有决定意义的语义角色就不再考虑其它语义角色,并且选取上述语义角色的核心进行分析。HNC从概念上把领域分为11大类,有300多个一级分类,每个一级分类都可以扩展细分,任意两个领域之间也可以组合。下面给出部分领域的定义。其中,第一部分是领域的编号,第二部分是它的文字定义。
.a 第一类专业活动(包括政治、经济、军事、法律等8个二级子类)
.a2 经济,a21制造业,a24 金融业,a26技术经济,λ6(λ=6,9,c)
第二类专业活动(包括农业、服务业等5个二级子类)
3.3
情景分析要首先确定分析的对象。从全篇来看,我们选取语句涉及的对象已大为减少,但情景分析不能也没有必要全部分析这些对象,因此首先要归并对象。对象之间的归并分为两种情况:1)重复出现的对象;2)非重复但有关联的对象。通过指代关系、形式结构和概念之间的关联可以发现同一、部分整体和并列等关系。通过表示关系的句类及其混合句类可以发现其它的关系。情景框架以事件的特定参与者为中心,包括各参与者以及他们之间的语义关系。比如:
上周五,美国商务部部长古铁雷斯宣布,将对来自中国的铜版纸产品征收临时反补贴税。
这个句子的基本信息就是中国企业应归美国的商务贸易纠纷。领域句类a25a(对外进出口贸易),来源于征收,因此它的情景框架是所给出的句类(即动作类别)和HNC语义符号):核心:征收(XT10*31)(va25*1Vv3ae01),征收者:美国(XA[fpj2Vjx63e22])以上就是贸易征收的情景框架。每个领域和句类结合都可以生成一个情景框架,一级情景框架的总数是300*(57+3192)=974700个(其中,一级领域为300个,句类包括57组类似于反应句的基本句类,以及它们之间相互混合构成的57*56=3192个混合句类)。每个情景框架都可以根据句类知识给出预期。
3.4
语境框架是一个三维空间,是高度数字化的语义结构,因此它是文本内容的高度抽象。由于语境框架从静态范畴、特征之间的语义关系、以及特征之间的褒贬倾向等三个方面来综合描述文本的内容,因此用它作为文本特征,可以较好地反应文本的内在关系。对句群、段落、篇章分析,可以得到不同颗粒度的语境框架和不同层次的文本特征。句群语境是语境的最小单位,本文的特征提取算法建立在句群语境基础上。
4. 特征提取算法的文本示例
算法的输入是自然语言表示的文本,输出是语境框架。算法的基本思路是:通过语义分析,把自然语言映射到语义符号上,然后分析各个语义角色之间的语义关系,和各个角色对句群的贡献,最后通过动态记忆抽取出语境框架。
4.1 语义分析
该系统采用的语义分析技术是HNC句类分析技术。句类分析可以给出句子的语义结构、各组成成分之间的语义关系。
例如: 参与这个计划的俄罗斯企业也遇到了一些严重的问题。
句类分析给出的语义结构是:Y90J=
其中,Y90J是句子所属的句类;YB、Y90、YC是语义块名,分别指出了效应对象和效应的内容。
4.2 领域提取
领域提取的过程就是确定信息描述核心的过程。HNC领域的分类是以语义为准的进行的语义分类,可以直接从内容中提取具有组合性好等特点。同时也面临着新的任务是:
1.如何从一个句子中提取句子所属领域;
2.如何从多个句子的领域集合中,确定句群的领域;
3.如何识别多个领域的交叉复合。
我们定义为一个四元组:(D,S,R,G),其中,D是领域类别,S是提取位置的语义,R是提取位置的语义角色,G为D的领域级别。所有可能的领域构成一个4元组集合DCanSet,提取的结果是领域候选集DSet。
领域提取的算法为:
1.从输入的句类分析结果的所有词汇语义中,得到所有的可能的领域,形成DCanSet;
领域信息蕴含在相关词语的HNC语义符号中。
2.按照一下算法对DCanSet排序;
a) 语义角色优先性排序:Eg > El > C > B|A。
领域首先取于整句语义核心(Eg);其次取于小句的语义核心(El);再次取于与语义核心强相关的抽象概念,最后取于所有具体概念。
b)级别大小排序。比如:专业活动领域的级别大于心理活动领域。
3.按照领域的类别,对DCanset的前n项进行复合;
复合的结果是生成新的领域,或者对某个领域加权。比如:改革竞争是活动很重要的一面,因此对经济领域和改革竞争进行复合的结果是对经济加权,权值为1。
4.给出复合后的前m个领域,作为领域的候选集DSet。
4.3 情景生成
情景生成的任务是生成有预期知识的情景框架,并填充之。情景框架的BNF范式描述是:
<情景框架>::=<领域句类>#<核心情景单元>{<对象情景单元>}#
<领域句类>::=<领域><句类>
<领域>::=a0|a1|a4|……(300个高层定义以及它们的混合)
<句类>::=X|Y|T|D|R|……(57组基本句类和3192个混合句类)
<核心情景单元>::=<核心对象OB><对象情景单元个数>
<核心对象>::=<对象>
<对象情景单元个数>::=2|3|4
<对象情景单元>::=<对象单元预期知识><对象>
情景生成算法如下:
1.根据领域候选集DSet,确定领域句类;
a)当领域来自句子(或小句)的语义核心Eg(或El)时,它指示的句类是领域句类;
b)当领域来自某个对象内容时,他所在的句类就是领域句类;
C)当领域来自不同句类时,领域句类是他们所在的句类的混合,混合的方式根据领域来源的语义块关系确定。
2.根据领域句类确定核心情景单元,并生成对象情景单元的预期知识;
核心情景就是领域句类所在的句子的核心语义块。对象情景单元的预期知识包括:领域句类的句类知识,包括句类词(指决定句类的词)的预期知识。
3.根据对象单元的预期知识,填充对象;
a)根据句类预期知识,确定每个单元需要填充的类型。只含对象的单元,填充符合要求的具体概念;含内容C的语义块,进行具体概念和抽象概念提取;
b)把符合预期的对象的HNC语义符号、语义表现、语义角色等一起填充。
4.进行框架归一;把句群中不同句子中相同语义的内容填充到同一单元中。
4.4背景生成
背景信息主要蕴含在某些HNC语义符号中,因此背景生成主要是寻找特定的概念。其算法如下:
1.填充基本背景信息;
2.直接从相关的词汇中提取时间、空间、目的等概念(这里给出一些有代表性词语的语义表示):
.条件:陈述中心的时间(j1)空间(j2)信息。如:中国fpj2*101
.目的:主要蕴含在对偶性中层概念中,如下面的e61,e62分别表示不同的目的。
.支持v943e61;v902e61
3.确定参照点;根据时间、地点、语言类型等判断参照点;在某些关系概念中就直接蕴含着参照,如:我国pj2+g400e31(汉语的“我国”指示出参照点是中国)。
5. 结束语
HNC概念符号表达式是词语的一种语义表达,它能够表达出词语之间的语义相关性,因此用它作为特征能够获得较好的分类效果。本文只是在这方面作了初步探索,并选取了一种比较直接的方法将HNC符号表达式转化为特征。事实上,HNC概念符号表达式中蕴含了丰富的概念联想脉络,概念基元内部和概念基元之间的组合都包含了大量的语义信息,这对于文本分类是非常有价值的,如何利用这些信息还有待于进一步的研究。本文在语境框架基础上,运用了算法的知识设计实现了文本特征提取算法。
参考文献:
[1] 晋耀红 苗传江,一个基于语境框架的文本特征提取算法
[2] 黄曾阳,HNC(概念层次网络)理论,清华大学出版社,1998
[3] 苗传江,HNC(概念次网络)理论导论,清华大学出版社,2005
[4] 晋耀红,基于语境框架的文本相似度计算,计算机工程与应用
[5] 张运良,基于简化语境的文本分类初探