细讲逻辑斯蒂回归与朴素贝叶斯、最大熵原理的爱恨交织（五）

最新推荐文章于 2024-07-08 16:55:25 发布

芝麻挞

最新推荐文章于 2024-07-08 16:55:25 发布

阅读量297

点赞数

文章标签：机器学习算法概率论数据挖掘自然语言处理

本文链接：https://blog.csdn.net/weixin_43928665/article/details/106817337

版权

第五节：分类器中的天真小弟 —— 朴素贝叶斯

朴素贝叶斯文本分类模型

考虑如下文本分类模型： $P(y_i, d_i)$ 表示一篇文章以及它的 label 的联合概率。 $d_i$ 指第 i 条训练数据中的文本。假设 $d_i$ 中每个词都是一个特征。

条件独立分布假设：已知文本标签的条件下，特征的分布是相互独立的。（已知标签后 $y_i$ ， $d_i$ 的概率等于该文本中每个词出现的概率乘积。

利用贝叶斯条件概率公式：

$P(y_i, d_i)=P(y=y_i)P(d_i\ |\ y=y_i)$

$\quad\quad\quad\quad=P(y=y_i)\displaystyle \prod^{V}_{j=1}P(x_j\ |\ y=y_i)^{C_{d_i}(x_j)}$

其中， $V$ 代表字典的 size， $x_j$ 代表 the $j^{th}$ word in dictionary， $C_{d_i}(x_j)$ 代表词 $x_j$ 在文件 $d_i$ 中出现的次数。

Define： $P(y=y_i)=\pi_{y_i}, \quad P(x_j\ |\ y=y_i)=\theta_{y_i,\ x_j}\ \leftarrow$ 这两种概率就是我们要估计的参数

$\Rightarrow P(y_i, d_i)=\pi_{y_i}\displaystyle \prod^{V}_{j=1}{(\theta_{y_i,\ x_j})}^{C_{d_i}(x_j)}$

用最大似然法估计朴素贝叶斯的最佳参数

(参数下面带波浪线代表是参数向量 / 矩阵, D 代表数据集中文件的总个数)

$Likelihood(\underset \sim{\pi},\ \underset \sim{\theta})=\displaystyle \prod^D_{i=1}P(y_i, d_i)$

$\quad\quad\quad\quad\quad=\displaystyle \prod^D_{i=1}[\pi_{y_i}\displaystyle \prod^{V}_{j=1}{(\theta_{y_i,\ x_j})}^{C_{d_i}(x_j)}]$

$log(Likelihood(\underset \sim{\pi},\ \underset \sim{\theta}))=\displaystyle \sum^D_{i=1}\Big[log\pi_{y_i}+\displaystyle \sum^{V}_{j=1}{C_{d_i}(x_j)}log(\theta_{y_i,\ x_j})\Big]$

约束： $\begin{cases} ①\ \ \displaystyle \sum^{K}_{k=1}\pi_k=1 \\ ②\ \ for\ every\ k,\ \displaystyle \sum^V_{j=1}\theta_{k,\ j}=1 \end{cases}$

$log(L_{\pi_k})=\displaystyle \sum^D_{i=1}\Big[log\pi_{y_i}+\displaystyle \sum^{V}_{j=1}{C_{d_i}(x_j)}log(\theta_{y_i,\ x_j})\Big]+\alpha(\sum^K_{k=1}\pi_k-1)\ \leftarrow$ 对 $\pi_k$ 求最优解，对第一个约束引入拉格朗日乘子

$\frac{\partial{log(L_{\pi_k})}}{\partial{\pi_k}}=\displaystyle \sum^D_{i=1}\frac{1}{\pi_k}I_{y_i=k}+\alpha=0,$ $\quad for\ k=1,\ 2,\ ...,\ K\ \leftarrow$

最低0.47元/天解锁文章

芝麻挞

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
细讲逻辑斯蒂回归与朴素贝叶斯、最大熵原理的爱恨交织（五）

第五节：分类器中的天真小弟 —— 朴素贝叶斯朴素贝叶斯文本分类模型考虑如下文本分类模型：P(yi,di)P(y_i, d_i)P(yi,di) 表示一篇文章以及它的 label 的联合概率。did_idi 指第 i 条训练数据中的文本。假设 did_idi 中每个词都是一个特征。条件独立分布假设：已知文本标签的条件下，特征的分布是相互独立的。（已知标签后 yiy_iyi，did_idi 的概率等于该文本中每个词出现的概率乘积。利用贝叶斯条件概率公式：P(yi,di)=P(y=yi)
复制链接

扫一扫