自然语言处理笔记（NLTK）

最新推荐文章于 2021-08-25 10:10:20 发布

xiexie1357

最新推荐文章于 2021-08-25 10:10:20 发布

阅读量523

点赞数

分类专栏：人工智能 NLTK 文章标签： NLTK LDA BOW 朴素贝叶斯

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiexie1357/article/details/82215576

版权

本文介绍了自然语言处理中的一些基本工具和方法，包括使用NLTK的朴素贝叶斯分类器进行文本分类，通过RegexpTokenizer进行正则表达式标记，利用gensim实现LDA模型进行主题建模，以及词袋模型BOW在文本表示中的应用。此外，还提及了词袋模型与n-gram模型的区别。

摘要由CSDN通过智能技术生成

1 朴素贝叶斯分类器（NLTK）

nltk.classify.naivebayes.NaiveBayesClassifier 继承于class nltk.classify.api.ClassifierI。

classify(featureset)[source]

返回：给定特征集的最合适标签。

返回类型：label

prob_classify(featureset)[source]

返回：给定特征集的标签上的概率分布。

返回类型：ProbDistI

参考：http://www.nltk.org/api/nltk.classify.html#nltk.classify.api.ClassifierI

2 正则表达式标记符

A RegexpTokenizer splits a string into substrings using a regular expression. For example, the following tokenizer forms tokens out of alphabetic sequences, money expressions, and any other non-whitespace sequences:

RegexpTokenizer使用正则表达式将字符串拆分为子字符串。例如，以下标记生成器使用字母序列，货币表达式和任何其他非空白序列来形成标记：

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理笔记（NLTK）

1 朴素贝叶斯分类器（NLTK）nltk.classify.naivebayes.NaiveBayesClassifier 继承于class nltk.classify.api.ClassifierI。 classify(featureset)[source]返回：给定特征集的最合适标签。返回类型：label prob_classify(featureset)[sour...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。