金融数据挖掘第7章第2节（3）英文文本分析处理

勇敢驴驴

已于 2022-05-08 17:31:08 修改

阅读量576

点赞数

文章标签：自然语言处理 python 人工智能中文分词

于 2022-05-02 13:47:27 首次发布

本文链接：https://blog.csdn.net/xllzuibangla/article/details/124538901

版权

这篇博客介绍了如何使用Python的nltk库进行句子分割、词干提取和同义词处理。通过示例展示了sent_tokenize、word_tokenize和PorterStemmer等函数的用法，并演示了如何查找词典中的定义、例句、同义词和反义词。此外，还提到了nltk对非英文文本的支持。

摘要由CSDN通过智能技术生成

一、分割句子与单词（例1）

nltk：自然语言工具包（分词、词干提取、同义词与反义词）

安装MLTK：conda install nltk

（1）导入包

import nltk
nltk.download('punkt') #安装NLTK数据
print('一、分割句子、单词：')

（2）给出样本文本

mytextl = 'Hello Adam, how are you? I hope everything is going well. Today isa good day, see you dude.'
mytext2 = 'Hello Mr Adam, how are you? I hope everything is going well. Today is a good day,see you dude.'

（3）分割句子

以标点符号划分句子： sent_tokenize（无效）

因为nltk安装下载的是免费版本，功能不全，无法分割句子，但是能够分割单词

from nltk.tokenize import sent_tokenize
print('分割后的句子：')
print(sent_tokenize(mytextl))

（4）用标点符号来拆分句子

fr

最低0.47元/天解锁文章