NLP常用工具包实战 (3)NLTK工具包:英文数据分词、Text对象、停用词、词性标注、命名实体识别、数据清洗实例

NLTK 非常实用的文本处理工具,主要用于英文数据,历史悠久~

import nltk
# nltk.download()
# nltk.download('punkt')
# nltk.download('stopwords')
from nltk.tokenize import word_tokenize
from nltk.text import Text
from nltk.corpus import stopwords
from nltk import pos_tag
from nltk.chunk import RegexpParser
from nltk import ne_chunk

1 分词

str1 = "Today's weather is good, very windy and sunny, we have no classes in the afternoon,We have to play basketball tomorrow."
tokens = word_tokenize(str1)
tokens = [word.lower() for word in tokens]
print(tokens[:5])  # ['today', "'s", 'weather', 'is', 'good']

2 Text对象

# print(help(nltk.text))  # 帮助文档
# 创建一个Text对象,方便后续操作
t = Text(tokens)
print(t.count('good'))  # 1
print(t.index('good'))  # 4
t.plot(8)  # 打印出现次数最多的8个单词

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值