自然语言处理

英文自然语言处理

1.文本划分为句子

import nltk
from nltk.tokenize import sent_tokenize  # 按句子分割  见. 就断开
text = ' Welcome readers. I hope you find it interesting. Please do reply.'
# print(sent_tokenize(text))
# 结果:[' Welcome readers.', 'I hope you find it interesting.', 'Please do reply.']
# 切分大批量的句子,加载PunktSentenceTokenizer 并使用其tokenize()函数来进行切分
# from nltk.tokenize import PunktSentenceTokenizer 没有用这个语句

tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
text = " Hello everyone. Hope all are fine and doing well. Hope you find the book interesting."
# print(tokenizer.tokenize(text))
# 结果:[' Hello everyone.', 'Hope all are fine and doing well.', 'Hope you find the book interesting']
# for row in tokenizer.tokenize(text):
#     print(row)
# 结果: Hello everyone.
# Hope all are fine and doing well.
# Hope you find the book interesting.

2.将句子切分成单词(文本 --> 句子–>单词)

# word_tokenize()函数
# word_tokenize 函数使用 NLTK 包的一个叫作 TreebankWordTokenizer 类的实例用于执行单词的切分
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值