《Natural Language Processing with Python》6.2节的一些错误

最新推荐文章于 2024-05-23 00:13:26 发布

zzljlu

最新推荐文章于 2024-05-23 00:13:26 发布

阅读量2.1k

点赞数

文章标签： python processing features 测试算法任务

本文链接：https://blog.csdn.net/zzljlu/article/details/6314223

版权

最近一直在阅读《Natural Language Processing with Python》，在阅读该书的6.2节的Sentence Segmentation时，发现错误比较多。现在记录下来，也许可以帮到其他人，也许以后可以整理一下给该书作者发个邮件。

在说明问题之前，在这里先列出我的软件版本：

Python：2.5

Nltk：2.0b2

本节内容简介

Sentence Segmentation（我不知道如何翻译，下文中称作“句子划分”）把一段文字分成一组句子，由于句子的结尾一般有比较特殊的标点，所以句子划分可以被看做一个针对标点符号的分类问题，即当我们遇到一个标点符号时，判断它是不是一个句子的结束。

本节中对于句子划分任务用的方法是：利用监督学习之朴素Bayes方法，和一般监督学习算法一样，其基本步骤为：

1，数据预处理：把数据整理成一种合适的格式，这样就便于下一步的特征提取。

>>> sents = nltk.corpus.treebank_raw.sents() >>> tokens = [] >>> boundaries = set() >>> offset = 0 >>> for sent in nltk.corpus.treebank_raw.sents(): ... tokens.extend(sent) ... offset += len(sent) ... boundaries.add(offset-1)

2，特征提取：提取一些比较有分辨能力的特征。

>>> def punct_features(tokens, i): ... return {'next-word-capitalized': tokens[i+1][0].isupper(), ... 'prevword': tokens[i-1].lower(), ... 'punct': tokens[i], ... 'prev-word-is-one-char': len(tokens[i-1]) == 1}

3，准备训练数据和测试数据

>>> featuresets = [(punct_features(tokens, i), (i in boundaries)) ... for i in range(1, len(tokens)-1) ... if tokens[i] in '.?!'] >>> size = int(len(featuresets) * 0.1) >>> train_set, test_set = featuresets[size:], featuresets[:size]

4，训练：利用朴素贝叶斯算法训练。

classifier = nltk.NaiveBayesClassifier.train(train_set)

5，测试：测试训练出来的分类器效果如何。

>>> nltk.classify.accuracy(classifier, test_set) 0.97419354838709682

那么如何用该分类器来对一段文字进行句子划分呢？本节用的方法就是检查每个标点，判断它是不是句子的边界，如果是就把文字从该标点出分开。

def segment_sentences(words): start = 0 sents = [] for i, word in words: if word in '.?!' and classifier.classify(words, i) == True: sents.append(words[start:i+1]) start = i+1 if start < len(words): sents.append(words[start:])

错误之处及改正方法

下面我将指出该节代码中的错误之处，并给出相应的解决方法。

问题1：特征提取函数可能产生越界。

特征提取函数中的代码：

'next-word-capitalized': tokens[i+1][0].isupper()

有可能越界，即如果i是这tokens序列的最后一个字符的索引值，那么上面的代码就会越界。而且这种情况会经常发生，因为段文字的最后一个字符通常是“.?!”（对英文而言）中的一个，所以一定会执行改行代码。

解决办法：因为一般在句尾遇到“.?!”标点之一时，标志的一句话的结束，那我们就捕获该异常并把“next-word-capitalized”的值设置为True。

问题2及解决方法：一个小的打印错误，书中忘了把对要分类的数据进行特征提取。

“segment_sentence”函数中第4行的“classifier.classify(words, i) == True”应该改为“classifier.classify(punct_features(words, i))”

问题3：segment_sentence函数才执行完后，我如何才能获得句子划分的结果？由于保存划分结果的sents变量是一个局部变量，在执行完后，我们在函数外边是得不到结果的，而且其内部也没有打印该结果。

解决办法：在函数结尾加上一句“return sents”，让其把划分结果返回。

问题4：当我调用“classifier.show_most_informative_features()”时，提示如下错误：

“File "E:/编程工具/py2.5/lib/site-packages/nltk/classify/naivebayes.py", line 144, in show_most_informative_features“

“TypeError: 'bool' object is unsubscriptable”

我针对该错误，找到文件“naivebayes.py”，其144行语句是：

print ('%24s = %-14r %6s : %-6s = %s : 1.0' %

(fname, fval, l1[:6], l0[:6], ratio))

解决办法：由于，我们的分类任务的类别只有两个，即True和False，在代码中即用l1和l0来表示，由于在144行对其执行了下标操作，从而导致了前面的错误。我猜想nltk作者可能假设所有类别都是字符串，他们为了在输出的时候保持格式较短，才在这里做了下标操作。所以，我的解决办法是在对l1和l0进行下标操作之前把其转化为字符串，即把上面的代码改为：

print ('%24s = %-14r %6s : %-6s = %s : 1.0' %

(fname, fval, str(l1)[:6], str(l0)[:6], ratio))

至此，我解决了我遇到的问题，我才可以放心的进行下面章节的学习。

zzljlu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Natural Language Processing with Python》6.2节的一些错误

最近一直在阅读《Natural Language Processing with Python》，在阅读该书的6.2节的Sentence Segmentation时，发现错误比较多。现在记录下来，也许可以帮到其他人，也许以后可以整理一下给该书作者发个邮件。在说明问题之前，在这
复制链接

扫一扫