读书笔记 - 机器学习实战 - 4 利用概率理论进行分类：朴素贝叶斯

最新推荐文章于 2022-09-13 19:08:18 发布

K5niper

最新推荐文章于 2022-09-13 19:08:18 发布

阅读量7.9k

点赞数 2

分类专栏：机器学习实战

本文链接：https://blog.csdn.net/zhaoyin214/article/details/86944758

版权

4 朴素贝叶斯（Classifying with probability theory: naive Bayes）

软判决：最佳判别及其概率估计

4.1 贝叶斯决策（Classifying with Bayesian decision theory）

朴素贝叶斯（贝叶斯决策理论的一个分支）

优点：能处理样本量小，多分类问题

缺点：对输入数据如何表示敏感

适用范围：标称值

两类数据，c1和c2，分布函数分别为 $p_1(x,y)$ 和 $p_2(x,y)$

判别准则：

若 $p_1(x,y) > p_2(x,y)$ ，则判决为c1；

若 $p_2(x,y) > p_1(x,y)$ ，则判决为c2；

即，选择概率高的类别

PS：

贝叶斯概率（bayesian probability）：将先验知识和逻辑应用到未知状态的判别中；
频率概率（frequency probability）：仅从数据本身抽取结论，并不考虑先验知识和逻辑。

4.2 条件概率（Conditional probability）

条件概率

条件概率是指事件A在另外一个事件B已经发生条件下的发生概率，表示为： $P (A ∣ B)$ ，读作“在B的条件下A的概率（the probability of A given B）”。若只有两个事件A、B，则
$P(A|B)=\frac{P(AB)}{P(B)}$

概率测度

如果事件B的概率 $P (B) > 0$ ，那么 $Q (A) = P (A ∣ B)$ 在所有事件A上所定义的函数Q就是概率测度。如果 $P (B) = 0$ ， $P (A ∣ B)$ 没有定义。条件概率可以用决策树进行计算。

联合概率

表示两个事件共同发生的概率。A与B的联合概率表示为 $P (A B)$ 。

边缘概率

是某个事件发生的概率，而与其它事件无关。边缘概率是这样得到的：在联合概率中，把最终结果中不需要的那些事件合并成其事件的全概率而消失（对离散随机变量用求和得全概率，对连续随机变量用积分得全概率），这称为边缘化（marginalization）。A的边缘概率表示为 $P (A)$ ，B的边缘概率表示为 $P (B)$ 。

贝叶斯准则

$P(B|A)=\frac{P(A|B)P(B)}{P(A)}$

4.3 利用条件概率分类（Classifying with conditional probability）

已知 $c_1$ 、 $c_2$ 的概率分布 $p(c_1)$ 、 $p(c_2)$ ，点 $(x, y)$ 来自 $c_1$ 、 $c_2$ 的概率分别为 $p(x,y|c_1)$ 和 $p(x,y|c_2)$ 。当观察到点 $(x, y)$ 时，若要判别其来自 $c_1$ 还是 $c_2$ ，需比较 $p(c_1|x,y)$ 和 $p(c_2|x,y)$ ，二者可由贝叶斯准则得到
$p(c_i|x,y)=\frac{p(x,y|c_i)p(c_i)}{p(x,y)}$

4.4 利用朴素贝叶斯进行文本分类（Document classification with naïve Bayes）

朴素贝叶斯步骤：

收集数据

准备：数值型或布尔型数据

分析：特征数量大时，通常采用直方图

训练：计算各独立特征的条件概率

测试：计算错误率

使用：

朴素贝叶斯假设：

所有特征统计独立（statistical independence），即朴素（naive）
所有特征同等重要

PS：上述两个假设通常是不成立的，但朴素贝叶斯分类器在实践中依然取得了不错的结果。

4.5 文本分类实现（Classifying text with Python）

分词（token）是字符的任意组合。

4.5.1 准备：文本->词向量（Prepare: making word vectors from text）

将句子转为词向量（word (token) vector）。

# List 4.1 Word list to vector function

def loadDataSet():
    postingList = [["my", "dog", "has", "fles",
                    "problems", "help", "please"],
                   ["maybe", "not", "take", "him",
                    "to", "dog", "park", "stupid"],
                   ["my", "dalmation", "is", "so", "oute",
                    "I", "love", "him"],
                   ["stop", "posting", "stupid", "worthless",
                    "garbage"],
                   ["mr", "licks", "ate", "my", "steak",
                    "how", "to", "stop", "him"],
                   ["quit", "buying", "worthless", "dog",
                    "food", "stupid"]]
    classVec = [0, 1, 0, 1, 0, 1]    # 1 is abusive, 0 not
    return postingList, classVec

def createVocabList(dataSet):
    
    # create an empty set
    vocabSet = set([])
    for document in dataSet:
        # create the union of two sets
        vocabSet = vocabSet | set(document)
    return list(vocabSet)

# one-hot encoding
def setOfWords2Vec(vocabList, inputSet):
    # create a vector of all 0s
    returnVec = [0] * len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else:
            print("the word: {} is not in my Vocabulary!".format(word))
    return returnVec

listOPosts, listClasses = loadDataSet()
myVocabList = createVocabList(listOPosts)
print(myVocabList)
print(listOPosts[0])
print(setOfWords2Vec(myVocabList, listOPosts[0]))
print(listOPosts[3])
print(setOfWords2Vec

最低0.47元/天解锁文章

K5niper

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
读书笔记 - 机器学习实战 - 4 利用概率理论进行分类：朴素贝叶斯

4 朴素贝叶斯（Classifying with probability theory: naive Bayes）软判决：最佳判别及其概率估计4.1 贝叶斯决策（Classifying with Bayesian decision theory）朴素贝叶斯（贝叶斯决策理论的一个分支）优点：能处理样本量小，多分类问题缺点：对输入数据如何表示敏感适用范围：离散值两类数据，c1和...
复制链接

扫一扫