第4章 4.5 使用Python进行文本分类---4.5.1 从文本中构建词向量

本章节介绍如何使用Python进行文本分类,重点讲解4.5.1部分——从文本数据中构建词向量。内容涉及朴素贝叶斯分类器的贝努利模型和多项式模型,以及在构建词向量时对特征独立性和重要性的假设。
摘要由CSDN通过智能技术生成

 

朴素贝叶斯分类器通常有两种实现方式:基于贝努利模型和基于多项式模型

        贝努利模型假设每个特征同等重要,就是只考虑词在文档中是否出现,并不考虑次数。而多项式模型考虑词在文档中出现的次数。

 

此处使用贝努利模型,则朴素贝叶斯方法进行的两个假设:

        1:特征之间相互独立

        2:每个特征同等重要

4.5.1 准备数据:从文本中构建词向量

'''
此程序的功能:准备数据---从文本中构建词向量
思想:首先创建一些词条切割后效果的文档集合和标签集合,用于测试
      然后创建该文本集合对应的词汇表
      最后根据词汇表,对输入的文本进行文本向量的转化
'''

'''
函数功能:创建一些实验样本,用于测试
输入:无
输出:创建的文档集合和标签集合
'''
def loadDataSet():
    
    #创建词条切割后的文档集合
    postingList = [
                    ['my', 'dog', 'flea', 'problems', 'help', 'please'],
                    ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                    ['my', &#
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值