第4章 4.5 使用Python进行文本分类---4.5.1 从文本中构建词向量

最新推荐文章于 2023-01-01 16:10:27 发布

zhangjzyeah

最新推荐文章于 2023-01-01 16:10:27 发布

阅读量1.9k

点赞数 2

分类专栏：机器学习实战

本文链接：https://blog.csdn.net/zhangjzyeah/article/details/79857046

版权

本章节介绍如何使用Python进行文本分类，重点讲解4.5.1部分——从文本数据中构建词向量。内容涉及朴素贝叶斯分类器的贝努利模型和多项式模型，以及在构建词向量时对特征独立性和重要性的假设。

摘要由CSDN通过智能技术生成

朴素贝叶斯分类器通常有两种实现方式：基于贝努利模型和基于多项式模型

贝努利模型假设每个特征同等重要，就是只考虑词在文档中是否出现，并不考虑次数。而多项式模型考虑词在文档中出现的次数。

此处使用贝努利模型，则朴素贝叶斯方法进行的两个假设：

1：特征之间相互独立

2：每个特征同等重要

4.5.1 准备数据：从文本中构建词向量

'''
此程序的功能：准备数据---从文本中构建词向量
思想：首先创建一些词条切割后效果的文档集合和标签集合，用于测试
      然后创建该文本集合对应的词汇表
      最后根据词汇表，对输入的文本进行文本向量的转化
'''

'''
函数功能：创建一些实验样本，用于测试
输入：无
输出：创建的文档集合和标签集合
'''
def loadDataSet():
    
    #创建词条切割后的文档集合
    postingList = [
                    ['my', 'dog', 'flea', 'problems', 'help', 'please'],
                    ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                    ['my', &#