Naive Bayes

最新推荐文章于 2023-03-22 14:43:14 发布

xlliu0226

最新推荐文章于 2023-03-22 14:43:14 发布

阅读量630

点赞数

分类专栏： Machine Learning 文章标签：文档 each algorithm c

本文链接：https://blog.csdn.net/xlliu0226/article/details/2172315

版权

Machine Learning 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

Wiki: http://en.wikipedia.org/wiki/Naive_bayes

$/mathrm{classify}(f_1,/dots,f_n) = /mathop{/mathrm{argmax}}_c / p(C=c) /prod_{i=1}^n p(F_i=f_i/vert C=c)$

Algorithm From Christopher D. Manning's Information Retrieval

TRAINBERNOULLINB(C,D)
1 V ← EXTRACTVOCABULARY(D)
2 N ← COUNTDOCS(D)
3 for each c ∈ C
4 do Nc ← COUNTDOCSINCLASS(D, c)
5 prior[c] ← Nc/N
6 for each t ∈ V
7 do Nct ← COUNTDOCSINCLASSCONTAININGTERM(D, c, t)
8 condprob[t][c] ← (Nct +1)/(Nc + 2)
9 return V, prior, condprob

APPLYBERNOULLINB(C,V, prior, condprob, d)
1 Vd ← EXTRACTTERMSFROMDOC(V, d)
2 for each c ∈ C
3 do score[c] ← log prior[c]
4 for each t ∈ V
5 do if t ∈ Vd
6 then score[c] += log condprob[t][c]
7 else score[c] += log(1− condprob[t][c])
8 return argmaxc∈C score[c]

Algorithm From Tom Mitchell's Machine Learning

Learn_naive_Bayes_text(Examples, V)

Examples为一组文本文档以及它们的目标值。V为所有可能目标值的集合。此函数作用是学习概率项P(w_k|v_j)，它描述了从类别v_j中的一个文档中随机抽取的一个单词为英文单词w_k的概率。该函数也学习类别的先验概率P(v_j)。

1.收集Examples中所有的单词、标点符号以及其他记号

n Vocabulary←在Examples中任意文本文档中出现的所有单词及记号的集合

2.计算所需要的概率项P(v_j)和 P(w_k|v_j)

n 对V中每个目标值v_j

n docs_j←Examples中目标值为v_j的文档子集

n P(v_j) ←

n Text_j←将docs_j中所有成员连接起来建立的单个文档

n n←在Text_j中不同单词位置的总数

n 对Vocabulary中每个单词w_k

n n_k←单词w_k出现在Text_j中的次数

n P(w_k|v_j) ←

Classify_naive_Bayes_text(Doc)

对文档Doc返回其估计的目标值。a_i代表在Doc中的第i个位置上出现的单词。

n positions←在Doc中包含的能在Vocabulary中找到的记号的所有单词位置

n 返回

xlliu0226

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Naive Bayes

Wiki: http://en.wikipedia.org/wiki/Naive_bayes Algorithm From Christopher D. Mannings Information Retrieval TRAINBERNOULLINB(C,D)1 V ← EXTRACTVOCABULARY(D)2 N ← COUNTDOCS(D)3 for each
复制链接

扫一扫

专栏目录