读书笔记 - 机器学习实战 - 4 利用概率理论进行分类:朴素贝叶斯

4 朴素贝叶斯(Classifying with probability theory: naive Bayes)

软判决:最佳判别及其概率估计

4.1 贝叶斯决策(Classifying with Bayesian decision theory)

朴素贝叶斯(贝叶斯决策理论的一个分支)

优点:能处理样本量小,多分类问题

缺点:对输入数据如何表示敏感

适用范围:标称值

两类数据,c1和c2,分布函数分别为 p 1 ( x , y ) p_1(x,y) p1(x,y) p 2 ( x , y ) p_2(x,y) p2(x,y)

判别准则:

  1. p 1 ( x , y ) > p 2 ( x , y ) p_1(x,y) > p_2(x,y) p1(x,y)>p2(x,y),则判决为c1;
  2. p 2 ( x , y ) > p 1 ( x , y ) p_2(x,y) > p_1(x,y) p2(x,y)>p1(x,y),则判决为c2;

即,选择概率高的类别

PS:

  • 贝叶斯概率(bayesian probability):将先验知识和逻辑应用到未知状态的判别中;
  • 频率概率(frequency probability):仅从数据本身抽取结论,并不考虑先验知识和逻辑。

4.2 条件概率(Conditional probability)

  • 条件概率

条件概率是指事件A在另外一个事件B已经发生条件下的发生概率,表示为: P ( A ∣ B ) P(A|B) P(AB),读作“在B的条件下A的概率(the probability of A given B)”。若只有两个事件A、B,则
P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\frac{P(AB)}{P(B)} P(AB)=P(B)P(AB)

  • 概率测度

如果事件B的概率 P ( B ) > 0 P(B)>0 P(B)>0,那么 Q ( A ) = P ( A ∣ B ) Q(A)=P(A|B) Q(A)=P(AB)在所有事件A上所定义的函数Q就是概率测度。如果 P ( B ) = 0 P(B)=0 P(B)=0 P ( A ∣ B ) P(A|B) P(AB)没有定义。条件概率可以用决策树进行计算。

  • 联合概率

表示两个事件共同发生的概率。A与B的联合概率表示为 P ( A B ) P(AB) P(AB)

  • 边缘概率

是某个事件发生的概率,而与其它事件无关。边缘概率是这样得到的:在联合概率中,把最终结果中不需要的那些事件合并成其事件的全概率而消失(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率),这称为边缘化(marginalization)。A的边缘概率表示为 P ( A ) P(A) P(A),B的边缘概率表示为 P ( B ) P(B) P(B)

  • 贝叶斯准则

P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ) P(B|A)=\frac{P(A|B)P(B)}{P(A)} P(BA)=P(A)P(AB)P(B)

4.3 利用条件概率分类(Classifying with conditional probability)

已知 c 1 c_1 c1 c 2 c_2 c2的概率分布 p ( c 1 ) p(c_1) p(c1) p ( c 2 ) p(c_2) p(c2),点 ( x , y ) (x,y) (x,y)来自 c 1 c_1 c1 c 2 c_2 c2的概率分别为 p ( x , y ∣ c 1 ) p(x,y|c_1) p(x,yc1) p ( x , y ∣ c 2 ) p(x,y|c_2) p(x,yc2)。当观察到点 ( x , y ) (x,y) (x,y)时,若要判别其来自 c 1 c_1 c1还是 c 2 c_2 c2,需比较 p ( c 1 ∣ x , y ) p(c_1|x,y) p(c1x,y) p ( c 2 ∣ x , y ) p(c_2|x,y) p(c2x,y),二者可由贝叶斯准则得到
p ( c i ∣ x , y ) = p ( x , y ∣ c i ) p ( c i ) p ( x , y ) p(c_i|x,y)=\frac{p(x,y|c_i)p(c_i)}{p(x,y)} p(cix,y)=p(x,y)p(x,yci)p(ci)

4.4 利用朴素贝叶斯进行文本分类(Document classification with naïve Bayes)

朴素贝叶斯步骤:

  1. 收集数据
  2. 准备:数值型或布尔型数据
  3. 分析:特征数量大时,通常采用直方图
  4. 训练:计算各独立特征的条件概率
  5. 测试:计算错误率
  6. 使用:

朴素贝叶斯假设:

  1. 所有特征统计独立(statistical independence),即朴素(naive)
  2. 所有特征同等重要

PS:上述两个假设通常是不成立的,但朴素贝叶斯分类器在实践中依然取得了不错的结果。

4.5 文本分类实现(Classifying text with Python)

分词(token)是字符的任意组合。

4.5.1 准备:文本->词向量(Prepare: making word vectors from text)

将句子转为词向量(word (token) vector)。

# List 4.1 Word list to vector function

def loadDataSet():
    postingList = [["my", "dog", "has", "fles",
                    "problems", "help", "please"],
                   ["maybe", "not", "take", "him",
                    "to", "dog", "park", "stupid"],
                   ["my", "dalmation", "is", "so", "oute",
                    "I", "love", "him"],
                   ["stop", "posting", "stupid", "worthless",
                    "garbage"],
                   ["mr", "licks", "ate", "my", "steak",
                    "how", "to", "stop", "him"],
                   ["quit", "buying", "worthless", "dog",
                    "food", "stupid"]]
    classVec = [0, 1, 0, 1, 0, 1]    # 1 is abusive, 0 not
    return postingList, classVec

def createVocabList(dataSet):
    
    # create an empty set
    vocabSet = set([])
    for document in dataSet:
        # create the union of two sets
        vocabSet = vocabSet | set(document)
    return list(vocabSet)

# one-hot encoding
def setOfWords2Vec(vocabList, inputSet):
    # create a vector of all 0s
    returnVec = [0] * len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else:
            print("the word: {} is not in my Vocabulary!".format(word))
    return returnVec

listOPosts, listClasses = loadDataSet()
myVocabList = createVocabList(listOPosts)
print(myVocabList)
print(listOPosts[0])
print(setOfWords2Vec(myVocabList, listOPosts[0]))
print(listOPosts[3])
print(setOfWords2Vec
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值