背景介绍
NLTK简单说明
自然语言工具包(Natural Language Toolkit,NLTK)是一个Python 库,用于识别和标记英语文本中各个词的词性(parts of speech)。这个项目于2000 年创建,经过15 年的发展,由来自世界各地的几十个开发者共同努力维护。
准备工作:安装NLTK模块
NLTK 模块的安装方法和其他Python 模块一样:
- 要么从NLTK 网站直接下载安装包进行安装
- 要么在anaconda里的environment、pycharm等,都可以通过关键词搜索“nltk”安装。
安装完NLTK库的时候,就要开始安装NLTK自带的文本库 nltk_data。两种安装方法:
第一种:
jupyter或命令窗口下:
>>>import nltk
>>>nltk.download()# 进入downloader下载器进行下载我们需要的文本库
>>>nltk.download('punkt')# 下载指定的文本库
说明:这里默认是安装路径是C盘,当然路径是可以改变的,但改变了路径是否能生效?所以这里我们就当且默认安装到C盘
问题:我的电脑每次都会download error,估计是下载源地址是国外网站导致访问超时。所以打算手动下载。
第二种:
- 链接:https://pan.baidu.com/s/1ekdZl1ows34n02mMGLx9jA 密码:zn68
- 到GitHub查找源,https://github.com/nltk/nltk_data(将packets下载下来并将文件名改成 nltk_data)
- 如果需要另外一些包,请访问 http://www.nltk.org/nltk_data/(但估计网络不行)
问题:下载好的nltk_data文件应该存储在哪才能生效?
我们可以进行反测试得出问题所在,换句话说就是先写一个没有安装文本库的一个测试语句,例如下图
这样我们就根据报错提示就可以知道自己需要将离线的安装包存储在哪里!
说明:将里面的文件都要解压
自己后面下载的包,一定要放到指定位置上,比如punkt.zip,那么就移动到tokenizers下进行解压。