最近要使用一下 spacy 库,安装版本为 spacy 3.0.6。
其他环境版本为, torch 版本为 1.8.1+cu111,torchtext 0.9.1.
但是,装完 spacy库后却一直无法安装 en_core_web_sm,一开始使用的以下官方给的安装命令
python -m spacy download en_core_web_sm
但是却半天没有反应,可能是网络问题?不清楚到底什么原因。
后来,看到 这篇博客 后改为使用本地安装:
- 先去官网下载 en_core_web_sm-3.0.0 ; (其他版本同理)
- 然后,将下载好的文件通过 xftp 上传到服务器;
- 最后,在指定虚拟环境下执行命令:
pip install 存放位置/en_core_web_sm-2.1.0.tar.gz
终于安装成功啦!
到这里,en_core_web_sm-3.0.0 安装是完成了,但是使用 torchtext 下载 IMDB 数据集时又出现错误:
from torchtext.legacy import datasets
train_data, test_data = datasets.IMDB.splits(TEXT, LABEL) # 使用 torchtext 下载 IMDB 数据集
第一次运行报错如下:
应该是网络的问题?英语不好也没看太懂。
第二次再运行,虽然没报错了,但是数据集没下载下载,加载数据集为空,如下图:
然后参考这位dalao的博客 torchtext-IMDB数据集下载过慢解决了。
思路还是同上安装 en_core_web_sm-3.0.0 一样,先去官网下载文件(IMDB 数据集),然后上传到服务器并解压。
安装 IMDB 数据集,两点注意:
- 先运行代码,程序会在当前目录下生成一个 .data/imdb 的隐藏文件夹;
- 然后将下载的 aclImdb_v1.tar.gz 文件,放到(mv)隐藏文件夹 .data/imdb中,不是自己新建 data/imdb
(一开始我就是傻乎乎的这样,后来还是torchtext-IMDB数据集下载过慢博主dalao帮忙解决的),万分感谢。 - 使用 ls -a 可以查看当前目录所有文件(包括隐藏文件夹 .data)
- linux 解压 "*.tar.gz"文件 命令 : tar -zxvf 压缩文件名.tar.gz