转贴一篇关于NLTK的中文文章

from:
 
这是一篇介绍NLTK的文章,原载于 这里,值得一看,唯一不足之处在于作者对于一些名词的解释略显业余,同时对于最新版的NLTK,我们在代码上的实现和原文上还是有些出入的。原文见下:

  在本期文章中,David向您介绍了自然语言工具包(Natural LanguageToolkit),它是一个将学术语言技术应用于文本数据集的Python 库。称为“文本处理”的程序设计是其基本功能;更深入的是专门用于研究自然语言的语法以及语义分析的能力。

  鄙人并非见多识广,虽然写过很多关于文本处理 方面的东西(例如,一本书),但是,对我来说,语言处理(linguistic processing)是一个相对新奇的领域。如果在对意义非凡的自然语言工具包(NLTK)的说明中出现了错误,请您谅解。NLTK是使用 Python教学以及实践计算语言学的极好工具。此外,计算语言学与人工智能、语言/专门语言识别、翻译以及语法检查等领域关系密切。

  NLTK 包括什么

  NLTK会被自然地看作是具有栈结构的一系列层,这些层构建于彼此基础之上。那些熟悉人工语言(比如Python)的文法和解析的读者来说,理解自然语言模型中类似的 ——但更深奥的 —— 层不会有太大困难。

  术语表

  全集(Corpora):相关文本的集合。例如,莎士比亚的作品可能被统称为一个文集(corpus);而若干个作者的作品称为 全集。

  直方图(Histogram):数据集中不同单词、字母或其他条目的出现频率的统计分布。

  结构(Syntagmatic):对语段的研究;也就是全集中字母、单词或短语连续出现的统计关系。

  上下文无关语法(Context-freegrammar):由四类形式语法构成的 Noam Chomsky 层级中的第二类。参阅参考资料 以获得详尽描述。

  尽管 NLTK附带了很多已经预处理(通常是手工地)到不同程度的全集,但是概念上每一层都是依赖于相邻的更低层次的处理。首先是断词;然后是为单词加上标签;然后将成组的单词解析为语法元素,比如名词短语或句子(取决于几种技术中的某一种,每种技术都有其优缺点);最后对最终语句或其他语法单元进行分类。通过这些步骤,NLTK让您可以生成关于不同元素出现情况的统计,并画出描述处理过程本身或统计合计结果的图表。

  在本文中,您将看到关于低层能力的一些相对完整的示例,而对大部分高层次能力将只是进行简单抽象的描述。现在让我们来详细分析文本处理的首要步骤。

  断词(Tokenization)

  您可以使用 NLTK完成的很多工作,尤其是低层的工作,与使用 Python的基本数据结构来完成相比,并没有 太 大的区别。不过,NLTK提供了一组由更高的层所依赖和使用的系统化的接口,而不只是简单地提供实用的类来处理加过标志或加过标签的文本。

  具体讲, nltk.tokenizer.Token类被广泛地用于存储文本的有注解的片断;这些注解可以标记很多不同的特性,包括词类(parts-of-speech)、子标志(subtoken)结构、一个标志(token)在更大文本中的偏移位置、语形词干(morphologicalstems)、文法语句成分,等等。
实际上,一个 Token 是一种特别的字典 —— 并且以字典形式访问 ——所以它可以容纳任何您希望的键。在 NLTK中使用了一些专门的键,不同的键由不同的子程序包所使用。

  让我们来简要地分析一下如何创建一个标志并将其拆分为子标志:

  清单 1. 初识 nltk.tokenizer.Token 类
>>> from nltk.tokenizer import *
>>> t = Token(TEXT='This is my first test sentence')
>>> WSTokenizer().tokenize(t, addlocs=True) # break onwhitespace
>>> print t['TEXT']
This is my first test sentence
>>> print t['SUBTOKENS']
[<This>@[0:4c], <is>@[5:7c], <my>@[8:10c],<first>@[11:16c],
<test>@[17:21c], <sentence>@[22:30c]]
>>> t['foo'] = 'bar'
>>> t
<TEXT='This is my first test sentence', foo='bar',
SUBTOKENS=[<This>@[0:4c], <is>@[5:7c],<my>@[8:10c], <first>@[11:16c],
<test>@[17:21c], <sentence>@[22:30c]]>
>>> print t['SUBTOKENS'][0]
<This>@[0:4c]
>>> print type(t['SUBTOKENS'][0])
<class 'nltk.token.SafeToken'>

  概率(Probability)

  对于语言全集,您可能要做的一件相当简单的事情是分析其中各种事件(events) 的频率分布,并基于这些已知频率分布做出概率预测。NLTK支持多种基于自然频率分布数据进行概率预测的方法。我将不会在这里介绍那些方法(参阅参考资料 中列出的概率教程),只要说明您肯定会 期望的那些与您已经知道的那些(不止是显而易见的缩放比例/正规化)之间有着一些模糊的关系就够了。

  基本来讲,NLTK支持两种类型的频率分布:直方图和条件频率分布(conditionalfrequency)。 nltk.probability.FreqDist类用于创建直方图;例如,可以这样创建一个单词直方图:

  清单 2. 使用 nltk.probability.FreqDist创建基本的直方图
>>> from nltk.probability import *
>>> article = Token(TEXT=open('cp-b17.txt').read())
>>> WSTokenizer().tokenize(article)
>>> freq = FreqDist()
>>> for word in article['SUBTOKENS']:
...   freq.inc(word['TEXT'])
>>> freq.B()
1194
>>> freq.count('Python')
12

  概率教程讨论了关于更复杂特性的直方图的创建,比如“以元音结尾的词后面的词的长度”。nltk.draw.plot.Plot类可用于直方图的可视化显示。当然,您也可以这样分析高层次语法特性或者甚至是与NLTK 无关的数据集的频率分布。

  条件频率分布可能比普通的直方图更有趣。条件频率分布是一种二维直方图——它按每个初始条件或者“上下文”为您显示一个直方图。例如,教程提出了一个对应每个首字母的单词长度分布问题。我们就以这样分析:

  清单 3.条件频率分布:对应每个首字母的单词长度
>>> cf = ConditionalFreqDist()
>>> for word in article['SUBTOKENS']:
...   cf[word['TEXT'][0]].inc(len(word['TEXT']))
...
>>> init_letters = cf.conditions()
>>> init_letters.sort()
>>> for c in init_letters[44:50]:
...   print "Init %s:" % c,
...   for length in range(1,6):
...     print "len %d/%.2f," % (length,cf[c].freq(n)),
...   print
...
Init a: len 1/0.03, len 2/0.03, len 3/0.03, len 4/0.03, len5/0.03,
Init b: len 1/0.12, len 2/0.12, len 3/0.12, len 4/0.12, len5/0.12,
Init c: len 1/0.06, len 2/0.06, len 3/0.06, len 4/0.06, len5/0.06,
Init d: len 1/0.06, len 2/0.06, len 3/0.06, len 4/0.06, len5/0.06,
Init e: len 1/0.18, len 2/0.18, len 3/0.18, len 4/0.18, len5/0.18,
Init f: len 1/0.25, len 2/0.25, len 3/0.25, len 4/0.25, len5/0.25,

  条件频率分布在语言方面的一个极好应用是分析全集中的语段分布——例如,给出一个特定的词,接下来最可能出现哪个词。当然,语法会带来一些限制;不过,对句法选项的选择的研究属于语义学、语用论和术语范畴。

  词干提取(Stemming)

  nltk.stemmer.porter.PorterStemmer类是一个用于从英文单词中获得符合语法的(前缀)词干的极其便利的工具。
这一能力尤其让我心动,因为我以前曾经用 Python创建了一个公用的、全文本索引的搜索工具/库(见 Developing afull-text indexer in Python中的描述,它已经用于相当多的其他项目中)。

  尽管对大量文档进行关于一组确切词的搜索的能力是非常实用的(gnosis.indexer所做的工作),但是,对很多搜索用图而言,稍微有一些模糊将会有所帮助。也许,您不能特别确定您正在寻找的电子邮件是否使用了单词“complicated”、“complications”、“complicating”或者“complicates”,但您却记得那是大概涉及的内容(可能与其他一些词共同来完成一次有价值的搜索)。

  NLTK中包括一个用于单词词干提取的极好算法,并且让您可以按您的喜好定制词干提取算法:

  清单 4. 为语形根(morphologicalroots)提取单词词干
>>> from nltk.stemmer.porter import PorterStemmer
>>> PorterStemmer().stem_word('complications')
'complic'

  实际上,您可以怎样利用 gnosis.indexer及其衍生工具或者完全不同的索引工具中的词干提取功能,取决于您的使用情景。幸运的是,gnosis.indexer有一个易于进行专门定制的开放接口。您是否需要一个完全由词干构成的索引?或者您是否在索引中同时包括完整的单词和词干?您是否需要将结果中的词干匹配从确切匹配中分离出来?在未来版本的gnosis.indexer中我将引入一些种类词干的提取能力,不过,最终用户可能仍然希望进行不同的定制。

  无论如何,一般来说添加词干提取是非常简单的:首先,通过特别指定gnosis.indexer.TextSplitter来从一个文档中获得词干;然后,当然执行搜索时,(可选地)在使用搜索条件进行索引查找之前提取其词干,可能是通过定制您的MyIndexer.find() 方法来实现。

  在使用 PorterStemmer 时我发现nltk.tokenizer.WSTokenizer类确实如教程所警告的那样不好用。它可以胜任概念上的角色,但是对于实际的文本而言,您可以更好地识别出什么是一个“单词”。幸运的是, gnosis.indexer.TextSplitter是一个健壮的断词工具。例如:

  清单 5. 基于拙劣的 NLTK断词工具进行词干提取
>>> from nltk.tokenizer import *
>>> article = Token(TEXT=open('cp-b17.txt').read())
>>> WSTokenizer().tokenize(article)
>>> from nltk.probability import *
>>> from nltk.stemmer.porter import *
>>> stemmer = PorterStemmer()
>>> stems = FreqDist()
>>> for word in article['SUBTOKENS']:
...   stemmer.stem(word)
...   stems.inc(word['STEM'].lower())
...
>>> word_stems = stems.samples()
>>> word_stems.sort()
>>> word_stems[20:40]
['"generator-bas', '"implement', '"lazili', '"magic"','"partial',
'"pluggable"', '"primitives"', '"repres', '"secur','"semi-coroutines."',
'"state', '"understand', '"weightless', '"whatev', '#','#-----',
'#----------', '#-------------', '#---------------','#b17:']

  查看一些词干,集合中的词干看起来并不是都可用于索引。很多根本不是实际的单词,还有其他一些是用破折号连接起来的组合词,单词中还被加入了一些不相干的标点符号。让我们使用更好的断词工具来进行尝试:

  清单 6.使用断词工具中灵巧的启发式方法来进行词干提取
>>> article =TS().text_splitter(open('cp-b17.txt').read())
>>> stems = FreqDist()
>>> for word in article:
...   stems.inc(stemmer.stem_word(word.lower()))
...
>>> word_stems = stems.samples()
>>> word_stems.sort()
>>> word_stems[60:80]
['bool', 'both', 'boundari', 'brain', 'bring', 'built', 'but','byte',
'call', 'can', 'cannot', 'capabl', 'capit', 'carri', 'case','cast',
'certain', 'certainli', 'chang', 'charm']

  在这里,您可以看到有一些单词有多个可能的扩展,而且所有单词看起来都像是单词或者词素。断词方法对随机文本集合来说至关重要;公平地讲,NLTK捆绑的全集已经通过 WSTokenizer()打包为易用且准确的断词工具。要获得健壮的实际可用的索引器,需要使用健壮的断词工具。

  添加标签(tagging)、分块(chunking)和解析(parsing)

  NLTK的最大部分由复杂程度各不相同的各种解析器构成。在很大程度上,本篇介绍将不会解释它们的细节,不过,我愿意大概介绍一下它们要达成什么目的。

  不要忘记标志是特殊的字典这一背景 ——具体说是那些可以包含一个 TAG 键以指明单词的语法角色的标志。NLTK全集文档通常有部分专门语言已经预先添加了标签,不过,您当然可以将您自己的标签添加到没有加标签的文档。

  分块有些类似于“粗略解析”。也就是说,分块工作的进行,或者基于语法成分的已有标志,或者基于您手工添加的或者使用正则表达式和程序逻辑半自动生成的标志。不过,确切地说,这不是真正的解析(没有同样的生成规则)。例如:

  清单 7.分块解析/添加标签:单词和更大的单位
>>> from nltk.parser.chunk importChunkedTaggedTokenizer
>>> chunked = "[ the/DT little/JJ cat/NN ] sat/VBD on/IN [the/DT mat/NN ]"
>>> sentence = Token(TEXT=chunked)
>>> tokenizer =ChunkedTaggedTokenizer(chunk_node='NP')
>>> tokenizer.tokenize(sentence)
>>> sentence['SUBTOKENS'][0]
(NP: <the/DT> <little/JJ> <cat/NN>)
>>> sentence['SUBTOKENS'][0]['NODE']
'NP'
>>> sentence['SUBTOKENS'][0]['CHILDREN'][0]
<the/DT>
>>> sentence['SUBTOKENS'][0]['CHILDREN'][0]['TAG']
'DT'
>>> chunk_structure = TreeToken(NODE='S',CHILDREN=sentence['SUBTOKENS'])
(S:
 (NP: <the/DT> <little/JJ> <cat/NN>)
 <sat/VBD>
 <on/IN>
 (NP: <the/DT> <mat/NN>))

  所提及的分块工作可以由nltk.tokenizer.RegexpChunkParser类使用伪正则表达式来描述构成语法元素的一系列标签来完成。这里是概率教程中的一个例子:

  清单 8.使用标签上的正则表达式进行分块
>>> rule1 =ChunkRule('<DT>?<JJ.*>*<NN.*>',
...        'Chunk optional det, zero or more adj, and anoun')
>>> chunkparser = RegexpChunkParser([rule1],chunk_node='NP', top_node='S')
>>> chunkparser.parse(sentence)
>>> print sent['TREE']
(S: (NP: <the/DT> <little/JJ> <cat/NN>)
 <sat/VBD> <on/IN>
 (NP: <the/DT> <mat/NN>))

  真正的解析将引领我们进入很多理论领域。例如,top-down解析器可以确保找到每一个可能的产品,但可能会非常慢,因为要频繁地(指数级)进行回溯。Shift-reduce效率更高,但是可能会错过一些产品。不论在哪种情况下,语法规则的声明都类似于解析人工语言的语法声明。本专栏曾经介绍了其中的一些:SimpleParse 、 mx.TextTools 、 Spark 和 gnosis.xml.validity (参阅参考资料)。

  甚至,除了 top-down 和 shift-reduce解析器以外,NLTK 还提供了“chart解析器”,它可以创建部分假定,这样一个给定的序列就可以继而完成一个规则。这种方法可以是既有效又完全的。举一个生动的(玩具级的)例子:

  清单 9.为上下文无关语法定义基本的产品
>>> from nltk.parser.chart import *
>>> grammar = CFG.parse('''
...  S -> NP VP
...  VP -> V NP | VP PP
...  V -> "saw" | "ate"
...  NP -> "John" | "Mary" | "Bob" | Det N | NP PP
...  Det -> "a" | "an" | "the" | "my"
...  N -> "dog" | "cat" | "cookie"
...  PP -> P NP
...  P -> "on" | "by" | "with"
...  ''')
>>> sentence = Token(TEXT='John saw a cat with mycookie')
>>> WSTokenizer().tokenize(sentence)
>>> parser = ChartParser(grammar, BU_STRATEGY,LEAF='TEXT')
>>> parser.parse_n(sentence)
>>> for tree in sentence['TREES']: print tree
(S:
 (NP: <John>)
 (VP:
  (VP: (V: <saw>) (NP: (Det: <a>) (N:<cat>)))
  (PP: (P: <with>) (NP: (Det: <my>) (N:<cookie>)))))
(S:
 (NP: <John>)
 (VP:
  (V: <saw>)
  (NP:
   (NP: (Det: <a>) (N: <cat>))
   (PP: (P: <with>) (NP: (Det: <my>) (N:<cookie>))))))

  probabilistic context-freegrammar(或者说是PCFG)是一种上下文无关语法,它将其每一个产品关联到一个概率。同样,用于概率解析的解析器也捆绑到了NLTK 中。

  您在等待什么?

  NLTK还有其他本篇简短介绍中不能涵盖的重要功能。例如,NLTK有一个完整的框架,用于通过类似于“naive Bayesian” 和“maximumentropy”等模型的统计技术进行文本分类。即使还有篇幅,现在我也还不能解释其本质。不过,我认为,即使是NLTK较低的层,也可以成为一个既可用于教学应用程序也可用于实际应用程序的实用框架。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值