![](https://img-blog.csdnimg.cn/20190520205134573.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
NLTK
NLTK:Natural Language Toolkit,自然语言处理工具包,在NLP领域中,最常使用的一个Python库。
NLTK是一个开源的项目,包含:Python模块,数据集和教程,用于NLP的研究和开发 。
本专栏通过他里面的数据来进行学习和练习。
考古学家lx(李玺)
[ 笃信仁厚 , 慎思勤勉 ] 《爬虫逆向进阶实战》作者
展开
-
NLP自然语言处理001:NLTK入门
准备写一个系统的nlp入门博客,就从 nltk 开始把。NLTK:Natural Language Toolkit,自然语言处理工具包,在NLP领域中,最常使用的一个Python库。我们需要通过他里面的数据来进行学习和练习。NLTK是一个开源的项目,包含:Python模块,数据集和教程,用于NLP的研究和开发 [1] 。NLTK由StevenBird和Edward Loper在宾夕法尼...原创 2019-05-15 22:15:01 · 983 阅读 · 0 评论 -
NLP自然语言处理002:NLTK中的语料和词汇资源
在自然语言处理的实际项目中,通常要使用大量的语言数据或者语料库。NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集的大量公开数据集、模型上提供了全面、易用的接口,涵盖了分词、词性标注(Part-Of-Speechtag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Par...原创 2019-05-16 22:12:06 · 1352 阅读 · 0 评论 -
NLTK-003:词典资源
词典或者词典资源的意思是一个 词或短语 以及一些相关信息的集合。例如:词性和词意定义等相关信息。词典资源附属于文本,通常在文本的帮助下创建和丰富。词汇列表语料库nltk.corpus.words仅仅包含词汇列表的语料库,可以用来寻找文本语料中不常见的或者拼写错误的词汇import nltkdef unusual_words(text): text_vocab = set([w.l...原创 2019-05-17 12:14:20 · 1144 阅读 · 0 评论 -
NLTK-004:加工原料文本
从网络和硬盘访问文本编号 2554 的文本是《罪与罚》的英文翻译,我们可以用如下方式访问它。from urllib import requesturl = "http://www.gutenberg.org/files/2554/2554.txt"response = request.urlopen(url)raw = response.read().decode('utf8')(如...原创 2019-05-17 16:26:26 · 685 阅读 · 0 评论 -
NLTK-005:分类和标注词汇
之前大家也肯定学过名字、动词、形容词、副词之间的差异,这些词类不是闲置的,而是对许多语言处理任务都有用的分类,正如我们将看到的,这些分类源于对文本中词的分布的简单的分析。将词汇按照他们的词性(POS)分类以及相应的标注它们的过程被称作为词性标注(POS tagging),简称为标注。词性也被称为词类或词汇范畴。用于特定任务的标记的集合被称为一个标记集,我们本章的重点是利用标记和自动标注文本。使...原创 2019-05-17 21:34:28 · 875 阅读 · 0 评论 -
NLTK-006:分类文本(性别鉴定)
分类是为给定的输入选择正确的类标签的任务,在基本的分类任务中,每个输入被认为是与所有其它输入隔离的,并且标签集是预先定义的。下面是分类任务的一些例子:判断一封邮件是否是垃圾邮件。从一个固定的主题领域列表中,如‘体育’、‘技术’、‘政治’,决定新闻报道的主题是什么。基本的分类任务有许多有趣的变种。例如:在多类分类中,每个实例可以分配多个标签,在开放性分类中,标签集是没有定义的。在序列分类...原创 2019-05-18 16:11:10 · 1570 阅读 · 0 评论 -
NLTK-007:分类文本(文档情感分类)
之前我们看了几个例子,那里文档已经按类别标记。使用这些语料库,我们可以建立分类器。自动给新文档添加适当的类别标签。首先我们构造一个标记了相应类别的文档清单,对于这个例子,我选择了nltk中的电影评论语料库,将每个评论分为正面或者负面。import randomfrom nltk.corpus import movie_reviewsdocuments = [(list(movie_revi...原创 2019-05-18 20:56:42 · 1233 阅读 · 0 评论 -
NLTK-008:分类文本(有监督分类的更多例子)
句子分割:句子分割可以看作是一个标点符号的分类任务:每当我们遇到一个可能会结束的句子的符号,我们必须决定他是否终止了当前句子。#首先获得一些已被分割成句子的数据 #将他转换成一种适合提取特征的形式import nltksents = nltk.corpus.treebank_raw.sents() tokens = [] ...原创 2019-05-19 15:05:44 · 832 阅读 · 0 评论