- 博客(5)
- 收藏
- 关注
原创 Python3自然语言处理(5)——预处理
Python3自然语言处理(5)——预处理注:转载请联系博主,或关注微信公众号"引文空间",后台提出转载申请,等待回复。否则将举报抄袭!1.分词当一个文档或者一个长字符串需要处理的时候,你首先要做的是将它拆分成一个个单词和标点符号,我们称这个过程为分词。接下来我们将了解NLTK中可用分词器的类型以及它们的用法。创建一个名为tokenizer.py的文件并添加如下代码:...
2020-02-02 20:54:12 1137
原创 Python3自然语言处理(4)——处理原始文本
Python3自然语言处理(4)——处理原始文本注:转载请联系博主,或关注微信公众号"引文空间",后台提出转载申请,等待回复。否则将举报抄袭!文本的最重要来源无疑是网络。探索现成的文本集合很方便,但是每个人都有自己的文本来源,我们需要学习如何访问它们。1.在Python中读取PDF文件要从Python中访问PDF文件,首先需要安装PyPDF2库:pip install pypdf2创...
2020-01-28 12:41:41 399
原创 Python3自然语言处理(3)——WordNet
Python3自然语言处理——WordNet1.WordNet介绍WordNet 是面向语义的英语词典,类似于传统辞典,但具有更丰富的结构。NLTK 中包括英语 WordNet,共有 155,287 个词和 117,659 个同义词集合。我们将以寻找同义词和它们在 WordNet 中如何访问开始。>>> from nltk.corpus import wordnet as ...
2020-01-27 14:55:52 909
原创 Python3自然语言处理(2)——获得文本语料库和词汇资源
Python3自然语言处理——获得文本语料库和词汇资源注:转载请联系博主,或关注微信公众号"引文空间",后台提出转载申请,等待回复。否则将举报抄袭!1.获取文本语料库古腾堡语料库NLTK包含Project Gutenberg电子文本档案的一小部分文本。我们先要用Python解释器加载NLTK包,然后尝试获得语料库中的文件标识符:>>> import nltk>&...
2020-01-26 14:19:47 1344
原创 Python3自然语言处理(1)——语言处理与Python
Python3自然语言处理——语言处理与Python注:转载请联系博主,或关注微信公众号"引文空间",后台提出转载申请,等待回复。否则将举报抄袭!《Python自然语言处理》是美国斯坦福大学Steven Bird,Edward Loper和Ewan Klein编著的NLP实用书籍,该书条理清晰,内容详尽,适合各种技术水平的读者,非常值得推荐,但是书中所用的Python版本为Python2,而目前Python使用和学习的主流为Python3,这给学习NLP的读者们可能造成困扰,因为Python3并不向下
2020-01-26 13:54:50 850
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人