自然语言处理的主流技术(NLP)

  世界文本检索大会TREC (http://trec.nist.gov/) 的最大特点是通过提供大规模训练语 料和统一评测方法来支持IR技术的研发。研究团队必须通过大会的统一评测并名列前茅, 才能获准到会上来做报告。1992年起TREC每年举办一届大会,并得到美国国防部(DARPA 和国家标准技术局(NIST)的资助。会议对包括中文、日文在内的多文种文档库开展了IR 评测。结果表明,中文IR并没有因为存在分词问题就比其他文种做得差,而且迄今没有证 据表明各语种的NLP,包括基于概念的或基于句法-语义分析的技术,能明显提高IR系统的 性能。 什么是主流技术? 语料库方法和统计语言模型不但没有过时,而且在可比的统一评测中被证明是当前各国语 言信息处理的一种主流技术。 1. N元模型 wi是文本中的任意一个词,如果已知它在该文本中的前两个词 wi-2w-1,便可以用条件 概率P(wi|wi-2w-1)来预测wi出现的概率。这就是统计语言模型的概念。一般来说,如果用 变量W代表文本中一个任意的词序列,它由顺序排列的n个词组成,即W=w1w2...wn,则统计 语言模型就是该词序列W在文本中出现的概率P(W)。利用概率的乘积公式,P(W)可展开为: P(W) = P(w1)P(w2|w1)P(w3| w1 w2)...P(wn|w1 w2...wn-1) 不难看出,为了预测词wn的出现概率,必须知道它前面所有词的出现概率。从计算上来看 ,这种方法太复杂了。如果任意一个词wi的出现概率只同它前面的两个词有关,问题就可 以得到极大的简化。这时的语言模型叫做三元模型 (tri-gram): P(W)≈P(w1)P(w2|w1)∏i(i=3,...,nP(wi|wi-2w-1) 符号∏i i=3,...,n P(...) 表示概率的连乘。一般来说,N元模型就是假设当前词的出现 概率只同它前面的N-1个词有关。重要的是这些概率参数都是可以通过大规模语料库来计算 的。比如三元概率有 P(wi|wi-2wi-1) ≈ count(wi-2wi-1wi) /count(wi-2wi-1) 式中count(...) 表示一个特定词序列在整个语料库中出现的累计次数。 统计语言模型有点像天气预报中使用的概率方法,用来估计概率参数的大规模语料库好比 是一个地区历年积累起来的气象记录。而用三元模型来做天气预报,就好比是根据前两天 的天气情况来预测今天的天气。天气预报当然不可能百分之百准确,但是我们大概不会因 此就全盘否定这种实用的概率方法吧。 2. 语音识别 语音识别作为计算机汉字输入的另一种方式越来越受到业内人士的青睐。所谓听写机就是 语音识别的一种商品。那么当前商品化的听写机采用的是什么技术呢? 其实,语音识别任务可视为对以下条件概率极大值的计算问题: W*= argmaxW P(W|speech signal) = argmaxW P(speech signal|W) P(W) / P(speech signal) = argmaxW P(speech signal|W) P(W) 式中数学符号argmaxW 表示对不同的候选词序列W计算条件概率P(W|speech signal)的值, 从而使W*成为条件概率值最大的词序列。它也就是当前输入语音信号speech signal所对应 的输出词串了。 公式第二行是利用贝叶斯定律转写的结果,因为条件概率P(speech signal|W)比较容易估 值。公式的分母P(speech signa ) 对给定的语音信号是一个常数,不影响极大值的计算, 故可以从公式中删除。在公式第三行所示的结果中,P(W)叫做统计语言模型;P(speech s ignal|W) 叫做声学模型。 据调查,目前市场上中文和英文的听写机产品都是用词的三元模型实现的, 几乎完全不用 句法-语义分析手段。这说明不同语言的产品技术往往是相通的。没有证据表明,中、英两 种语言的听写机在性能指标上有显著的差异。所以那种断言中文信息处理一定比西方语言 困难,实现中文信息处理必须另辟蹊径的说法,其实是站不住脚的。 三元模型(或一般的N元模型)只利用了语言的表层信息(或知识),即符号(字、词、词 性标记等)序列的同现信息。谁也没有说它是十全十美的。在这一领域中,下一个研究目 标应当是结构化对象(如句法树或语义框架)的统计模型。当然能做到语言理解是了不起 的成果,它肯定会比目前这种统计语言模型强得多,这是不争的事实。问题是目前国内外 还没有哪一种语言的句法-语义分析系统可以胜任大规模真实文本处理的重任。因此,对于 世界各国的语言来说,当前的主流技术仍是语料库方法和统计语言模型。 3. 词性标注 至少像短语结构文法这样一类的语法规则是建立在词类基础上的。无怪乎语言学界有句行 话说,没有词类就没法讲语法了。所以在自然语言的句法分析过程中,大概都有一个词性 标注的阶段。不难理解,汉语的自动分词和词性标注的精确率,将直接影响到后续的句法 分析结果。据观察,在汉语句法分析结果中,有高达60%的分析错误来源于分词和词性标注 的错误。 在英语的词库中约 14% 的词形(type)具有不只一个词性,而在一个语料库中,总词次数( tockens)中约 30% 是兼类词。从这个统计数字中可以估计出词性标注任务的难度。历史上 曾经先后出现过两个方法迥异的英语词性标注系统:TAGGIT系统拥有3000条上下文相关规 则, 而CLAWS系统完全采用概率统计方法。两个系统各自完成了100万词次的英语语料库的 自动词性标注任务。评则结果(见下表)表明,采用概率统计方法的CLAWS系统的标注精度 达到96%,比TAGGIT系统提高了近20个百分点。经过改进的CLAWS系统日后承担了英国国家 语料库BNC一亿条英语词的词性标注任务。 具体来说,CLAWS系统采用的是词类标记的二元模型。如果令 C = c1...cnW = w1... wn分别代表词类标记序列和词序列,则词性标注任务可视为在已知词序列W的情况下,计算 如下条件概率极大值的问题: C*= argmaxC P(C|W) = argmaxC P(W|C)P(C) / P(W) ≈ argmaxC ∏i i=1,...,nP(wi|ci)P(ci|ci-1 ) P(C|W) 表示:已知输入词序列W的情况下,出现词类标记序列C的条件概率。数学符号arg maxC 表示通过考察不同的候选词类标记序列C, 来寻找使条件概率P(C|W) 取最大值的那个 词序列W*。后者应当就是对W的词性标注结果。 公式第二行是利用贝叶斯定律转写的结果,由于分母P(W) 对给定的W是一个常数,不影响 极大值的计算,故可以从公式中删除。接着对公式进行近似。首先,引入独立性假设,认 为词序列中的任意一个词wi的出现概率近似,只同当前词的词性标记ci有关,而与周围( 上下文)的词类标记无关。即词汇概率 P(W|C) ≈ ∏i i=1,...,nP(wi|ci ) 其次,采用二元假设,即近似认为任意词类标记 ci的出现概率只同它紧邻的前一个词类标 ci-1有关。因此有: P(C) ≈∏i i=,...,n P(ci|ci-1) P(ci|ci-1) 是词类标记的转移概率,也叫做二元模型。 上述这两个概率参数也都可以通过带词性标记的语料库来分别估计: P(wi|ci) ≈ count(wi,ci) / count(ci) P(ci|ci-1) ≈ count(ci-1ci) / count(ci-1) 顺便指出,国内外学者用词类标记的二元或三元模型实现的中、英文词性自动标注都达到 了约95%的标注精确率。 评测为什么是惟一的评判标准 有评测才会有鉴别。评判一种方法优劣的惟一标准是相互可比的评测,而不是设计人员自 己设计的自评,更不是人们的直觉或某个人的远见。近年来,在语言信息处理领 域,通过评测来推动科学技术进步的范例很多。国家“863计划智能计算机专家组曾对语 音识别、汉字(印刷体和手写体)识别、文本自动分词、词性自动标注、自动文摘和机器 翻译译文质量等课题进行过多次有统一测试数据和统一计分方法的全国性评测,对促进这 些领域的技术进步发挥了非常积极的作用。 在国际上,美国国防部先后发起的TIPSTERTIDES两个和语言信息处理相关的计划,就 被称为评测驱动的计划。它们在信息检索(TREC)、信息抽取(MUC)、命名实体识别( MET-2)等研究课题上,既提供大规模的训练语料和测试语料,又提供统一的计分方法和评 测软件,以保证每个研究小组都能在一种公平、公开的条件下进行研究方法的探讨,推动 科学技术的进步。TRECMUCMET-2等会议所组织的多文种评比活动也有力地说明,其他 语言采用并证明有效的方法,对中文也一样适用,不同文种应用系统的性能指标大体相当 。固然,每种语言都有它自己的个性,然而这些个性不应当被用来否定语言的共性,并在 事实不足的情况下做出错误的判断。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值