4 朴素贝叶斯(Classifying with probability theory: naive Bayes)
软判决:最佳判别及其概率估计
4.1 贝叶斯决策(Classifying with Bayesian decision theory)
朴素贝叶斯(贝叶斯决策理论的一个分支)
优点:能处理样本量小,多分类问题
缺点:对输入数据如何表示敏感
适用范围:标称值
两类数据,c1和c2,分布函数分别为 p 1 ( x , y ) p_1(x,y) p1(x,y)和 p 2 ( x , y ) p_2(x,y) p2(x,y)
判别准则:
- 若 p 1 ( x , y ) > p 2 ( x , y ) p_1(x,y) > p_2(x,y) p1(x,y)>p2(x,y),则判决为c1;
- 若 p 2 ( x , y ) > p 1 ( x , y ) p_2(x,y) > p_1(x,y) p2(x,y)>p1(x,y),则判决为c2;
即,选择概率高的类别
PS:
- 贝叶斯概率(bayesian probability):将先验知识和逻辑应用到未知状态的判别中;
- 频率概率(frequency probability):仅从数据本身抽取结论,并不考虑先验知识和逻辑。
4.2 条件概率(Conditional probability)
- 条件概率
条件概率是指事件A在另外一个事件B已经发生条件下的发生概率,表示为: P ( A ∣ B ) P(A|B) P(A∣B),读作“在B的条件下A的概率(the probability of A given B)”。若只有两个事件A、B,则
P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\frac{P(AB)}{P(B)} P(A∣B)=P(B)P(AB)
- 概率测度
如果事件B的概率 P ( B ) > 0 P(B)>0 P(B)>0,那么 Q ( A ) = P ( A ∣ B ) Q(A)=P(A|B) Q(A)=P(A∣B)在所有事件A上所定义的函数Q就是概率测度。如果 P ( B ) = 0 P(B)=0 P(B)=0, P ( A ∣ B ) P(A|B) P(A∣B)没有定义。条件概率可以用决策树进行计算。
- 联合概率
表示两个事件共同发生的概率。A与B的联合概率表示为 P ( A B ) P(AB) P(AB)。
- 边缘概率
是某个事件发生的概率,而与其它事件无关。边缘概率是这样得到的:在联合概率中,把最终结果中不需要的那些事件合并成其事件的全概率而消失(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率),这称为边缘化(marginalization)。A的边缘概率表示为 P ( A ) P(A) P(A),B的边缘概率表示为 P ( B ) P(B) P(B)。
- 贝叶斯准则
P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ) P(B|A)=\frac{P(A|B)P(B)}{P(A)} P(B∣A)=P(A)P(A∣B)P(B)
4.3 利用条件概率分类(Classifying with conditional probability)
已知 c 1 c_1 c1、 c 2 c_2 c2的概率分布 p ( c 1 ) p(c_1) p(c1)、 p ( c 2 ) p(c_2) p(c2),点 ( x , y ) (x,y) (x,y)来自 c 1 c_1 c1、 c 2 c_2 c2的概率分别为 p ( x , y ∣ c 1 ) p(x,y|c_1) p(x,y∣c1)和 p ( x , y ∣ c 2 ) p(x,y|c_2) p(x,y∣c2)。当观察到点 ( x , y ) (x,y) (x,y)时,若要判别其来自 c 1 c_1 c1还是 c 2 c_2 c2,需比较 p ( c 1 ∣ x , y ) p(c_1|x,y) p(c1∣x,y)和 p ( c 2 ∣ x , y ) p(c_2|x,y) p(c2∣x,y),二者可由贝叶斯准则得到
p ( c i ∣ x , y ) = p ( x , y ∣ c i ) p ( c i ) p ( x , y ) p(c_i|x,y)=\frac{p(x,y|c_i)p(c_i)}{p(x,y)} p(ci∣x,y)=p(x,y)p(x,y∣ci)p(ci)
4.4 利用朴素贝叶斯进行文本分类(Document classification with naïve Bayes)
朴素贝叶斯步骤:
- 收集数据
- 准备:数值型或布尔型数据
- 分析:特征数量大时,通常采用直方图
- 训练:计算各独立特征的条件概率
- 测试:计算错误率
- 使用:
朴素贝叶斯假设:
- 所有特征统计独立(statistical independence),即朴素(naive)
- 所有特征同等重要
PS:上述两个假设通常是不成立的,但朴素贝叶斯分类器在实践中依然取得了不错的结果。
4.5 文本分类实现(Classifying text with Python)
分词(token)是字符的任意组合。
4.5.1 准备:文本->词向量(Prepare: making word vectors from text)
将句子转为词向量(word (token) vector)。
# List 4.1 Word list to vector function
def loadDataSet():
postingList = [["my", "dog", "has", "fles",
"problems", "help", "please"],
["maybe", "not", "take", "him",
"to", "dog", "park", "stupid"],
["my", "dalmation", "is", "so", "oute",
"I", "love", "him"],
["stop", "posting", "stupid", "worthless",
"garbage"],
["mr", "licks", "ate", "my", "steak",
"how", "to", "stop", "him"],
["quit", "buying", "worthless", "dog",
"food", "stupid"]]
classVec = [0, 1, 0, 1, 0, 1] # 1 is abusive, 0 not
return postingList, classVec
def createVocabList(dataSet):
# create an empty set
vocabSet = set([])
for document in dataSet:
# create the union of two sets
vocabSet = vocabSet | set(document)
return list(vocabSet)
# one-hot encoding
def setOfWords2Vec(vocabList, inputSet):
# create a vector of all 0s
returnVec = [0] * len(vocabList)
for word in inputSet:
if word in vocabList:
returnVec[vocabList.index(word)] = 1
else:
print("the word: {} is not in my Vocabulary!".format(word))
return returnVec
listOPosts, listClasses = loadDataSet()
myVocabList = createVocabList(listOPosts)
print(myVocabList)
print(listOPosts[0])
print(setOfWords2Vec(myVocabList, listOPosts[0]))
print(listOPosts[3])
print(setOfWords2Vec