#利用贝叶斯公式预测类型 ,比如给一个文档,根据特征词判断文档的主题
𝑃(𝐶│𝑊)=(𝑃(𝑊│𝐶)*𝑃(𝐶))/(𝑃(𝑊))
P(A1,A2|B) = P(A1|B)P(A2|B)
各个条件相互独立,如果不独立需要使用自然语言处理
sklearn.naive_bayes.MultinomialNB
拉普拉斯平滑
如果词频列表里面有很多出现次数都为0,很可能计算结果都为零
𝑃(𝐹1│𝐶)=(𝑁𝑖+𝛼)/(𝑁+𝛼𝑚)
𝛼为指定的系数一般为1,m为训练文档中统计出的特征词个数
sklearn.naive_bayes.MultinomialNB(alpha = 1.0)
#使用数据集
news = fetch_20newsgroups(subset=‘all’)
分配
x_train, x_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25)
以训练集当中的词的列表进行每篇文章重要性统计[‘a’,‘b’,‘c’,‘d’]
x_train = tf.fit_transform(x_train)