手动下载并安装nltk_data

19 篇文章 1 订阅

1. 引入

使用nltk的tokenizer、模型、语料之前,都要先运行如下代码进行下载:

import nltk
nltk.download()

但网络原因,笔者从未成功下载过。

发现一种离线安装方式(参考1,2),折腾配置成功了,步骤如下。

2. 具体步骤

  1. 下载nltk_data
  • 下载链接: https://github.com/nltk/nltk_data/tree/gh-pages

注意下载branch为gh-pages,下载后得到:nltk_data-gh-pages.zip

  1. 上传到服务器/root目录

将nltk_data-gh-pages.zip上传到ubuntu的/root/目录。

  1. 解压后,copy其中package下所有文件

(1)创建/root/nltk_data/

(2)解压 nltk_data-gh-pages.zip

(3)cp -rf nltk_data-gh-pages/packages/* /root/nltk_data/

  1. 验证是否成功与报错解决方式

运行如下代码

from nltk import *
text = word_tokenize("They refuse to permit us to obtain the refuse permit")

报错

  Resource punkt not found.
  Please use the NLTK Downloader to obtain the resource:

  >>> import nltk
  >>> nltk.download('punkt')

报错的解决方法
(1) 找到punkt所在目录

cd /root/nltk_data/
find . -name "punkt*"

(2) 切换到punkt所在目录,并解压

cd /root/nltk_data/tokenizers
unzip punkt.zip

再运行如上代码,不报错,则说明配置成功了

报错原因:报错说缺少punkt分词器,因为上面下载的punkt还是zip的,没有解压。必须要手动解压后才能被nltk识别使用。

3. 总结

步骤简单,但653M的ZIP下载上传耗带宽,还有些小坑,搞定一次有些浪费时间,记录一下。

4. 参考

  1. https://blog.csdn.net/zhangcucmb/article/details/80824231
  2. https://blog.csdn.net/qq_43140627/article/details/103895811
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值