朴素贝叶斯分类器通常有两种实现方式:基于贝努利模型和基于多项式模型
贝努利模型假设每个特征同等重要,就是只考虑词在文档中是否出现,并不考虑次数。而多项式模型考虑词在文档中出现的次数。
此处使用贝努利模型,则朴素贝叶斯方法进行的两个假设:
1:特征之间相互独立
2:每个特征同等重要
4.5.1 准备数据:从文本中构建词向量
'''
此程序的功能:准备数据---从文本中构建词向量
思想:首先创建一些词条切割后效果的文档集合和标签集合,用于测试
然后创建该文本集合对应的词汇表
最后根据词汇表,对输入的文本进行文本向量的转化
'''
'''
函数功能:创建一些实验样本,用于测试
输入:无
输出:创建的文档集合和标签集合
'''
def loadDataSet():
#创建词条切割后的文档集合
postingList = [
['my', 'dog', 'flea', 'problems', 'help', 'please'],
['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
['my', &#