主题模型 LDA，Dirichlet分布和朴素贝叶斯算法

最新推荐文章于 2021-11-07 18:11:59 发布

小刘要努力。

最新推荐文章于 2021-11-07 18:11:59 发布

阅读量1.7k

点赞数

分类专栏：原力计算

liurunsen

本文链接：https://blog.csdn.net/weixin_44510615/article/details/89222868

版权

原力计算专栏收录该内容

214 篇文章 5 订阅

订阅专栏

主题模型

主题模型（topic model）是以非监督学习的方式对文集的隐含语义结构（latent semantic structure）进行聚类（clustering）的统计模型。
主题模型主要被用于自然语言处理（Natural language processing）中的语义分析（semantic analysis）和文本挖掘（text mining）问题，例如按主题对文本进行收集、分类和降维；也被用于生物信息学（bioinfomatics）研究。隐含狄利克雷分布Latent Dirichlet Allocation, LDA）是常见的主题模型

LDA

2003年，David M.Blei、Andrew Ng和Jordan I. Michael提出了隐含狄利克雷分布（Latent Dirichlet Allocation, LDA）。LDA得到了广泛使用

举例而言，在“狗”主题中，与该主题有关的字符，例如“狗”、“骨头”等词会频繁出现；在“猫”主题中，“猫”、“鱼”等词会频繁出现。若主题模型在分析一篇文章后得到10%的“猫”主题和“90%”的狗主题，那意味着字符“狗”和“骨头”的出现频率大约是字符“猫”和“鱼”的9倍。
在这里插入图片描述
、

Dirichlet分布

狄利克雷分布（Dirichlet distribution）或多元Beta分布（multivariate Beta distribution）是一类在实数域以正单纯形（standard simplex）为支撑集（support）的高维连续概率分布，是Beta分布在高维情形的推广。狄利克雷分布是指数族分布之一，也是刘维尔分布（Liouville distribution）的特殊形式 [2] ，将狄利克雷分布的解析形式进行推广可以得到广义狄利克雷分布（generalized Dirichlet distribution）和组合狄利克雷分布（Grouped Dirichlet distribution）
在这里插入图片描述

Beta分布描述的是单变量分布，Dirichlet分布描述的是多变量分布，因此，Beta分布可作为二项分布的先验概率，Dirichlet分布可作为多项分布的先验概率。这两个分布都用到了Gamma函数

在这里插入图片描述

在这里插入图片描述
α的取值对Dir(p|α)有什么影响？

贝叶斯分类算法

贝叶斯分类算法是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法。在许多场合，朴素贝叶斯(Naïve Bayes，NB)分类算法可以与决策树和神经网络分类算法相媲美，该算法能运用到大型数据库中，而且方法简单、分类准确率高、速度快。

朴素贝叶斯算法
设每个数据样本用一个n维特征向量来描述n个属性的值，即：X={x1，x2，…，xn}，假定有m个类，分别用C1, C2,…，Cm表示。给定一个未知的数据样本X（即没有类标号），若朴素贝叶斯分类法将未知的样本X分配给类Ci，则一定是
P(Ci|X)>P(Cj|X) 1≤j≤m，j≠i
根据贝叶斯定理
由于P(X)对于所有类为常数，最大化后验概率P(Ci|X)可转化为最大化先验概率P(X|Ci)P(Ci)。如果训练数据集有许多属性和元组，计算P(X|Ci)的开销可能非常大，为此，通常假设各属性的取值互相独立，这样
先验概率P(x1|Ci)，P(x2|Ci)，…，P(xn|Ci)可以从训练数据集求得。

根据此方法，对一个未知类别的样本X，可以先分别计算出X属于每一个类别Ci的概率P(X|Ci)P(Ci)，然后选择其中概率最大的类别作为其类别。

朴素贝叶斯算法成立的前提是各属性之间互相独立。当数据集满足这种独立性假设时,分类的准确度较高，否则可能较低。另外，该算法没有分类规则输出。

在这里插入图片描述