安装 en_core_web_sm-3.0.0

本文介绍了在Linux环境下,如何解决使用Spacy的en_core_web_sm模型安装及Torchtext下载IMDB数据集遇到的问题。针对网络问题导致的下载失败,提供了手动下载并本地安装的步骤,包括下载模型文件、上传到服务器、使用pip进行本地安装。对于Torchtext的IMDB数据集,同样需要手动下载后放入特定目录。通过这些方法,成功解决了数据集的下载和加载问题。
摘要由CSDN通过智能技术生成

最近要使用一下 spacy 库,安装版本为 spacy 3.0.6。
其他环境版本为, torch 版本为 1.8.1+cu111,torchtext 0.9.1.

但是,装完 spacy库后却一直无法安装 en_core_web_sm,一开始使用的以下官方给的安装命令

python -m spacy download en_core_web_sm

但是却半天没有反应,可能是网络问题?不清楚到底什么原因。

后来,看到 这篇博客 后改为使用本地安装:

  1. 先去官网下载 en_core_web_sm-3.0.0 ; (其他版本同理)
  2. 然后,将下载好的文件通过 xftp 上传到服务器;
  3. 最后,在指定虚拟环境下执行命令:
    pip install 存放位置/en_core_web_sm-2.1.0.tar.gz

终于安装成功啦!
在这里插入图片描述

到这里,en_core_web_sm-3.0.0 安装是完成了,但是使用 torchtext 下载 IMDB 数据集时又出现错误:

from torchtext.legacy import datasets

train_data, test_data = datasets.IMDB.splits(TEXT, LABEL) # 使用 torchtext 下载 IMDB 数据集

第一次运行报错如下:
blog.csdnimg.cn/20210514173607152.png)
应该是网络的问题?英语不好也没看太懂。

第二次再运行,虽然没报错了,但是数据集没下载下载,加载数据集为空,如下图:
在这里插入图片描述

然后参考这位dalao的博客 torchtext-IMDB数据集下载过慢解决了。

思路还是同上安装 en_core_web_sm-3.0.0 一样,先去官网下载文件(IMDB 数据集),然后上传到服务器并解压。

安装 IMDB 数据集,两点注意:

  1. 先运行代码,程序会在当前目录下生成一个 .data/imdb 的隐藏文件夹;
  2. 然后将下载的 aclImdb_v1.tar.gz 文件,放到(mv)隐藏文件夹 .data/imdb中,不是自己新建 data/imdb
    (一开始我就是傻乎乎的这样,后来还是torchtext-IMDB数据集下载过慢博主dalao帮忙解决的),万分感谢。
  3. 使用 ls -a 可以查看当前目录所有文件(包括隐藏文件夹 .data)
  • linux 解压 "*.tar.gz"文件 命令 : tar -zxvf 压缩文件名.tar.gz
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值