python自然语言处理工具包“spaCy”安装教程

spaCy简介

1、spaCy简单教程

spaCy 是一个Python自然语言处理工具包,诞生于2014年年中,号称“Industrial-Strength Natural Language Processing in Python”,是具有工业级强度的Python NLP工具包。spaCy里大量使用了 Cython 来提高相关模块的性能,这个区别于学术性质更浓的Python NLTK,因此具有了业界应用的实际价值。

spaCy是隶属于NLP(自然语言处理)的python组件。

官方介绍:spaCy excels at large-scale information extraction tasks. It's written from the ground up in carefully memory-managed Cython. Independent research has confirmed that spaCy is the fastest in the world. If your application needs to process entire web dumps, spaCy is the library you want to be using.

spaCy擅长于大规模的信息提取任务。独立研究证实,spaCy是世界上最快的。如果应用程序需要处理整个web转储,则spaCy是要使用的库。)

实际应用中:Spacy支持多语言,提供相对完善的已有模型,做分词,实体识别非常好用,而且效率很高。

2、Spacy的功能

spaCy的功能很多,从最简单的词性分析,到高阶的神经网络模型,五花八门。

以下为5个常见用途

    • 词性分析
    • 命名实体识别
    • 依赖关系刻画
    • 词嵌入向量的近似度计算
    • 词语降维和可视化

3、spaCy下载与安装

      1spaCy包原镜像网站是国外服务器,由于下载速度过慢,提示错误,导致下载失败,无法成功下载。

      2、在百度查找国内镜像,然后在进行下载,下载成功,完成下载,安装spaCy

      dos命令:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -U spacy

      3、查看spaCy是否安装成功。

      dos命令:pip show spaCy

      4、欲完成spaCy Python包的下载与安装调试需要下载自然语言处理库,出现同样的问题,寻找国内镜像,直接下载自然语言处理库的安装包,使用百度云网盘进行离线下载。

       百度网盘链接:链接:https://pan.baidu.com/s/1KitmmxL07lyrcjaErRQeRA    提取码:4aar 
 

4、安装和编译 spaCy

ubuntu环境下,直接用pip安装即可:

sudo apt-get install build-essential python-dev git

sudo pip install -U spacy

不过安装完毕之后,需要下载相关的模型数据,以英文模型数据为例,可以用"all"参数下载所有的数据:

sudo python -m spacy.en.download all

或者可以分别下载相关的模型和用glove训练好的词向量数据:

# 这个过程下载英文tokenizer,词性标注,句法分析,命名实体识别相关的模型

python -m spacy.en.download parser

# 这个过程下载glove训练好的词向量数据

python -m spacy.en.download glove

下载好的数据放在spacy安装目录下的data

可以用如下命令检查模型数据是否安装成功:

textminer@textminer:~$ python -c "import spacy; spacy.load('en'); print('OK')"

OK

也可以用pytest进行测试:

首先找到spacy的安装路径:

python -c "import os; import spacy; print(os.path.dirname(spacy.__file__))"

/usr/local/lib/python2.7/dist-packages/spacy

再安装pytest:  sudo python -m pip install -U pytest

最后进行测试

  • 6
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Python自然语言处理(NLP)是使用Python编程语言进行自然语言处理任务的领域。NLP涉及将人类语言转化为计算机可以理解和处理的形式,以及从文本数据中提取有用的信息。 对于Python中的NLP,有一些重要的库和工具可以使用。其中一些包括: 1. scikit-learn:这是Python中的机器学习库,提供了许多用于文本分类、情感分析和文本生成等NLP任务的功能。 2. Natural Language Toolkit(NLTK):这是一个丰富的Python库,提供了各种NLP技术的实现,包括语料库、词性标注、句法分析等。 3. Pattern:这是一个用于NLP和机器学习的Web挖掘模块,提供了一些实用的功能,如情感分析、实体提取和关键词提取等。 4. TextBlob:这是一个简单易用的NLP工具库,构建在NLTK和Pattern之上,提供了一些文本处理和分析的功能。 5. spaCy:这是一个用于工业级NLP的强大Python库,使用Cython进行加速,提供了高性能的文本处理功能,包括词性标注、命名实体识别和句法分析等。 6. Gensim:这是一个用于主题建模的Python库,可以用于从大规模文本数据中提取主题和语义信息。 此外,Stanford Core NLP是由Stanford NLP组提供的一个NLP服务包,它提供了一系列NLP工具和模型,如实体识别、依赖关系分析和情感分析等。 在使用Python进行NLP时,还可以使用N元语法(N-Grams)作为特征。N元语法将N个单词结合在一起,可以用于文本生成和特征提取。例如,使用二元语法(bigrams)可以生成文本的二元语法序列。 Python中的NLP还涉及到实体识别、情感分析、文本分类和语法分析等任务。可以使用Stanford Core NLP和NLTK的依赖性文法来生成依赖关系树,这些输出可以用于很多NLP问题,例如实体情感分析、角色和实体识别以及文本分类。 总之,Python自然语言处理领域提供了丰富的库和工具,可以用于处理文本数据、提取有用信息和解决各种NLP任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值