自然语言处理

菜菜的菜001

已于 2022-02-22 17:14:20 修改

阅读量651

点赞数

分类专栏：自然语言处理文章标签：自然语言处理人工智能 nlp python

于 2022-02-22 17:08:54 首次发布

本文链接：https://blog.csdn.net/weixin_45670509/article/details/123070456

版权

本文详细介绍了英文自然语言处理的几个关键步骤，包括文本划分为句子、句子切分成单词、词干提取、词形还原、词性标注以及指代消解。讲解了使用正则表达式进行单词划分，并提到了NLTK库在词性标注和词形还原中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

英文自然语言处理

1.文本划分为句子

import nltk
from nltk.tokenize import sent_tokenize  # 按句子分割  见. 就断开
text = ' Welcome readers. I hope you find it interesting. Please do reply.'
# print(sent_tokenize(text))
# 结果：[' Welcome readers.', 'I hope you find it interesting.', 'Please do reply.']
# 切分大批量的句子，加载PunktSentenceTokenizer 并使用其tokenize()函数来进行切分
# from nltk.tokenize import PunktSentenceTokenizer 没有用这个语句

tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
text = " Hello everyone. Hope all are fine and doing well. Hope you find the book interesting."
# print(tokenizer.tokenize(text))
# 结果：[' Hello everyone.', 'Hope all are fine and doing well.', 'Hope you find the book interesting']
# for row in tokenizer.tokenize(text):
#     print(row)
# 结果： Hello everyone.
# Hope all are fine and doing well.
# Hope you find the book interesting.

2.将句子切分成单词（文本 --> 句子–>单词）

# word_tokenize()函数
# word_tokenize 函数使用 NLTK 包的一个叫作 TreebankWordTok

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

菜菜的菜001

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

nltk：python自然语言处理一

qq_41864652的博客

08-07

944

环境： 1.安装nltk：pip install nltk 注：windows如果提示需要安装依赖包msgpack pip install msgpack 2.nltk_data的下载交互模式： import nltk nltk.download() 【windows：nltk.download_shell()】输入：d 进入下载器输入：all 开始下...

Python NLTK 自然语言处理入门

qq_35778860的博客

09-30

3103

Python NLTK 自然语言处理入门与例程在这篇文章中，我们将基于 Python 讨论自然语言处理（NLP）。本教程将会使用 Python NLTK 库。NLTK 是一个当下流行的，用于自然语言处理的 Python 库。那么 NLP 到底是什么？学习 NLP 能带来什么好处？简单的说，自然语言处理（ NLP ）就是开发能够理解人类语言的应用程序和服务。我们生活中经常会接触的自然语言处理...

参与评论您还未登录，请先登录后发表或查看评论

NLTK中文分句自定义词典 Mr. 不分词

Answer3664的博客

12-09

1257

因为我这里已经下载过NLTK了，所以就不提供安装教程了，搜一搜都能找到。这里就直接演示对英文句子切分： from nltk.tokenize.punkt import PunktSentenceTokenizer, PunktParameters def cut_sentences_en(content): punkt_param = PunktParameters() abbreviation = ['i.e.', 'dr', 'vs', 'mr', 'mrs', 'prof'

Python中文文本分句 sentence tokenize

weixin_39331401的博客

03-11

1999

由于nltk等都没有实现句子级别的tokenize，或者文本分句。这里使用python正则，快速实现一个，可以把文本分成若干个小句子。代码如下，如果你想要实现自己个性化的分句，例如只考虑“。！”等的分句，可以调整正则项，“|”代表或的意思。 def sent_tokenize(x): sents_temp = re.split('(：|:|,|，|。|！|\!|\.|？|\?)',...

自然语言处理学习1：nltk英文分句WordPunctTokenizer、分词word_tokenize和词频统计FreqDist

u014765410的博客

03-28

1280

参考博文：自然语言处理学习1：nltk英文分句WordPunctTokenizer、分词word_tokenize和词频统计FreqDist

刘挺等《自然语言处理》教学课件PPT，56177-00《自然语言处理》课件

04-08

刘挺等《自然语言处理》教学课件PPT，56177-00《自然语言处理》课件教学用教材：刘挺等《自然语言处理》高等教育出版社，2021 刘挺等《自然语言处理》教学课件PPT，56177-00《自然语言处理》课件刘挺等《自然...

自然语言处理中文情感分类源代码

06-16

自然语言处理中文情感分类源代码自然语言处理中文情感分类源代码自然语言处理中文情感分类源代码自然语言处理中文情感分类源代码自然语言处理中文情感分类源代码自然语言处理中文情感分类源代码自然语言处理中文情感...

自然语言处理 期末大作业

05-23

本次实验的目标是用编码器和解码器实现一个中文到英文的神经网络的翻译模型。编码器使用LSTM的序列神经网络，将我们的目标句子通过时间序列输入，最终将一个中文的文本句子编码成一个特定维数的向量。...

本科毕业设计-自然语言处理+NLP+中文文本分类实战-垃圾短信识别

06-24

本科毕业设计——自然语言处理+NLP+中文文本分类实战——垃圾短信识别本科毕业设计——自然语言处理+NLP+中文文本分类实战——垃圾短信识别本科毕业设计——自然语言处理+NLP+中文文本分类实战——垃圾短信识别本科...

自然语言处理NaturalLanguageProcessing(NLP).ppt

11-12

自然语言处理（NLP）是计算机科学领域与人工智能的一个重要分支，主要研究如何处理和理解人类的自然语言，包括但不限于英语、汉语等。NLP旨在让计算机能够理解、生成、处理和生成这些语言，以便更好地服务于信息处理...

punkt（自然语言处理中nltk).7z

04-07

该工具包的被运用于自然语言处理领域，具体用于使用nltk进行文本分词，在进行分词的时候，被提示需要下载punkt。使用nltk.download()下载失败，因此直接下载该工具包使用即可。

安装NLTK遇到punkt的问题