自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Python3自然语言处理(5)——预处理

Python3自然语言处理(5)——预处理注:转载请联系博主,或关注微信公众号"引文空间",后台提出转载申请,等待回复。否则将举报抄袭!1.分词当一个文档或者一个长字符串需要处理的时候,你首先要做的是将它拆分成一个个单词和标点符号,我们称这个过程为分词。接下来我们将了解NLTK中可用分词器的类型以及它们的用法。创建一个名为tokenizer.py的文件并添加如下代码:...

2020-02-02 20:54:12 1137

原创 Python3自然语言处理(4)——处理原始文本

Python3自然语言处理(4)——处理原始文本注:转载请联系博主,或关注微信公众号"引文空间",后台提出转载申请,等待回复。否则将举报抄袭!文本的最重要来源无疑是网络。探索现成的文本集合很方便,但是每个人都有自己的文本来源,我们需要学习如何访问它们。1.在Python中读取PDF文件要从Python中访问PDF文件,首先需要安装PyPDF2库:pip install pypdf2创...

2020-01-28 12:41:41 399

原创 Python3自然语言处理(3)——WordNet

Python3自然语言处理——WordNet1.WordNet介绍WordNet 是面向语义的英语词典,类似于传统辞典,但具有更丰富的结构。NLTK 中包括英语 WordNet,共有 155,287 个词和 117,659 个同义词集合。我们将以寻找同义词和它们在 WordNet 中如何访问开始。>>> from nltk.corpus import wordnet as ...

2020-01-27 14:55:52 909

原创 Python3自然语言处理(2)——获得文本语料库和词汇资源

Python3自然语言处理——获得文本语料库和词汇资源注:转载请联系博主,或关注微信公众号"引文空间",后台提出转载申请,等待回复。否则将举报抄袭!1.获取文本语料库古腾堡语料库NLTK包含Project Gutenberg电子文本档案的一小部分文本。我们先要用Python解释器加载NLTK包,然后尝试获得语料库中的文件标识符:>>> import nltk>&...

2020-01-26 14:19:47 1344

原创 Python3自然语言处理(1)——语言处理与Python

Python3自然语言处理——语言处理与Python注:转载请联系博主,或关注微信公众号"引文空间",后台提出转载申请,等待回复。否则将举报抄袭!《Python自然语言处理》是美国斯坦福大学Steven Bird,Edward Loper和Ewan Klein编著的NLP实用书籍,该书条理清晰,内容详尽,适合各种技术水平的读者,非常值得推荐,但是书中所用的Python版本为Python2,而目前Python使用和学习的主流为Python3,这给学习NLP的读者们可能造成困扰,因为Python3并不向下

2020-01-26 13:54:50 850

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除