nltk分句、分词

使用 nltk 遇到错误

from nltk.tokenize import sent_tokenize

错误

LookupError: 
**********************************************************************
  Resource punkt not found.
  Please use the NLTK Downloader to obtain the resource:

  >>> import nltk
  >>> nltk.download('punkt')
  
  Searched in:
    - 'C:\\Users\\admin/nltk_data'
    - 'C:\\nltk_data'
    - 'D:\\nltk_data'
    - 'E:\\nltk_data'
    - 'D:\\software\\Anaconda3\\nltk_data'
    - 'D:\\software\\Anaconda3\\lib\\nltk_data'
    - 'C:\\Users\\admin\\AppData\\Roaming\\nltk_data'
    - ''
**********************************************************************

方案 1

import nltk
nltk.download('punkt')

若无法安装,则 在 C:\Windows\System32\drivers\etc 路径下找到hosts文件,并在最后添加 199.232.68.133 raw.githubusercontent.com IP地址,并保存

如果raw.GitHub的IP地址更换得比较频繁,那么先查询该网址的IP地址后再修改hosts文件。打开查询IP地址的网址:https://www.ipaddress.com/

raw.githubusercontent.com

输入如下代码,按Enter
在这里插入图片描述

参考:https://mp.weixin.qq.com/s?__biz=MzI1NzczMDIwNw==&mid=2247483777&idx=1&sn=cd985f3f7fe0472df9560de94753d86d&chksm=ea13b271dd643b67a591485d249ca9f64aaa380db3ff16c462c0d2def5ccce114e3c938b955e&token=445308227&lang=zh_CN#rd

方案 2

import nltk
nltk.download()

点击 “all” 这一行,然后点击 “Download” 按钮进行下载
在这里插入图片描述
参考:https://www.jianshu.com/p/4fb3e3c9bd69

方案三:离线下载

1、手动下载 NLTK 数据集

这里直接附上别人的博客《解决nltk download(‘punkt‘) 连接尝试失败》;

异可在官网下载:NLTK Corpora

2、安装 punkt

把下载好的语料包 punkt.zip 解压到 nltk_data/tokenizers/ 中。

参考:https://blog.csdn.net/qq_41297934/article/details/111310009

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值