Stanza安装(手动下载语言模型)

首先pip install stanza,这个就不细说了,注意一下安装的版本,默认是最新的(我的是1.5.1)

然后就是让人深恶痛绝的安装语言模型时刻(我这里是英文模型en)

import stanza

stanza.download('en')

根据我的尝试,科学上网改请求头等各种方法对我来都没有任何作用,所以老老实实找手动的办法。

结合别的博主的方法【1】,手动方法分为三部分:1)创建相应文件夹,更改配置文件   2)下载resource文件  3)下载语言模型

第一步,创建文件夹

别的教程对于地址说的都比较模糊,要不就直接安装在根目录下,这样对于使用anaconda的我来说很不友好,所以需要做一个配置的修改

前面我们在想要的anaconda环境中已经安装好stanza包了,那我们就打开stanza包的所在文件夹,路径大致为D:\Anaconda3\envs\***(环境名)\Lib\site-packages\stanza\

打开之后大概是这样的,在这个目录下创建一个空的stanza_resources文件夹(我这里是已经创建好的),然后在stanze_resources文件夹中再创建一个en文件夹(根据你需要的语言模型来命名,比如zh-hans)

创建文件夹之后,还需要更改一下配置文件,打开~/stanza/resources/common,py文件

# HOME_DIR = str(Path.home())
HOME_DIR = 'D:\\Anaconda3\\envs\\***(环境名)\\Lib\\site-packages\\stanza'

更改其中的HOME_DIR,这样程序就会搜索指定路径的语言模型,我们也就不需要将模型下载到电脑的根目录下了,如下图所示

除此之外,还要删掉require_file函数,否则程序还是会自动下载resource文件

    # make request
    # request_file(
    #     resources_url,
    #     os.path.join(model_dir, 'resources.json'),
    #     proxies,
    #     raise_for_status=True
    # )

第二步,下载resource文件

这里需要的文件可以在官方的GitHub上找到,网址为GitHub - stanfordnlp/stanza-resourcesContribute to stanfordnlp/stanza-resources development by creating an account on GitHub.icon-default.png?t=N7T8https://github.com/stanfordnlp/stanza-resources

找到对应版本的resource文件,下载保存到 \stanza\stanza_resources\目录下

 

第三步,下载语言模型

这里需要的语言模型可以从huggingface上下载,网址为https://huggingface.co/stanfordnlp/stanza-en/tree/main/models 

只需要下载default.zip就可以了(这里huggingface上显示的是1.5.1,我猜测是只有最新版本的)

我上传了1.5.1的英文语言模型,不方便魔法的同学可以下载下来参考一下(https://download.csdn.net/download/zzr0907/88862100

然后将下载好的文件解压到\stanza\stanza_resources\en\文件夹中

准备工作就大功告成了,接下来就使用一下

import stanza
nlp = stanza.Pipeline(lang='en')
doc = nlp('She is a cute woman.')
2023-09-21 14:14:07 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES
2023-09-21 14:14:09 INFO: Loading these models for language: en (English):
======================================
| Processor    | Package             |
--------------------------------------
| tokenize     | combined            |
| pos          | combined_charlm     |
| lemma        | combined_nocharlm   |
| constituency | ptb3-revised_charlm |
| depparse     | combined_charlm     |
| sentiment    | sstplus             |
| ner          | ontonotes           |
======================================

2023-09-21 14:14:09 INFO: Using device: cpu
2023-09-21 14:14:09 INFO: Loading: tokenize
2023-09-21 14:14:09 INFO: Loading: pos
2023-09-21 14:14:09 INFO: Loading: lemma
2023-09-21 14:14:09 INFO: Loading: constituency
2023-09-21 14:14:09 INFO: Loading: depparse
2023-09-21 14:14:10 INFO: Loading: sentiment
2023-09-21 14:14:10 INFO: Loading: ner
2023-09-21 14:14:10 INFO: Done loading processors!

 可以正常使用啦!

参考:

【1】 安装Stanza(处理Stanza无法下载语言模型的错误:ConnectionError)_stanza离线下载_gz927cool的博客-CSDN博客

  • 7
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 15
    评论
评论 15
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值