1. loadDataSet函数
import numpy as np
# 构造loadDataSet函数用于生成实验样本
def loadDataSet():
postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
['stop', 'posting', 'stupid', 'worthless', 'garbage'],
['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
classVec=[0,1,0,1,0,1] #1表示侮辱性言论,0表示正常言论
return postingList,classVec
简单的数据加载函数,用于生成一个实验样本。函数 loadDataSet 返回两个列表,postingList 包含
了一些文本数据,classVec 包含了这些文本数据对应的类别标签。postingList 包含了6个子列表,
每个子列表代表一条文本数据,而 classVec 包含了这些文本数据对应的类别标签,其中1表示侮辱
性言论,0表示正常言论。
2. 词汇表生成函数creatVocabList
#构建词汇表生成函数creatVocabList
def createVocabList(dataSet):
vocabSet=set([]) # 1 1 1 1 和1 1
for document in dataSet:
vocabSet=vocabSet|set(document) #取两个集合的并集
return list(voc