2. 情感分类与朴素贝叶斯

最新推荐文章于 2023-06-18 17:35:47 发布

hioog

最新推荐文章于 2023-06-18 17:35:47 发布

阅读量386

点赞数 1

分类专栏： NLP之分类和向量空间

本文链接：https://blog.csdn.net/weixin_51444711/article/details/113594914

版权

NLP之分类和向量空间专栏收录该内容

3 篇文章 1 订阅

订阅专栏

首先我们先回顾下理论部分，本文依然采用NLTK中的twitter corpus进行情感分类的二分类：positive和negative。

在inference时需要计算 $\frac{P(pos)}{P(neg)}\prod_{i=0}^m\frac{P(w_i|pos)}{P(w_i|neg)}$ （定义 $ratio=\frac{P(w_i|Pos)}{P(w_i|Neg)}$ ，如果>1则该条tweet为positive，=1则为中性，<1则为negative）。

但是句子长度越长导致计算下溢，我们引入 $l o g$ 计算： $\lambda(w)=log\frac{P(w_i|Pos)}{P(w_i|Neg)}$ 。因此。最后的计算公式变成 $log(\frac{P(pos)}{P(neg)}\prod_{i=0}^m\frac{P(w_i|pos)}{P(w_i|neg)}) =log\frac{P(pos)}{P(neg)} + \sum_{i=0}^mlog\frac{P(w_i|pos)}{P(w_i|neg)} =logprior + \sum_{i=0}^{m}loglikelihood=logprior + \sum_{i=0}^{m}\lambda$ 。(如果>0则该条tweet为positive，=0则为中性，<0则为negative。)
在这里插入图片描述
所以总结下整个过程大致为：获取数据集、预处理、计算 $freq(w_i,class)$ ，计算 $r a t i o$ ，计算 $\lambda$ ，计算 $l o g p r i o r$ 。

具体代码实现见：GitHub源码

错误分析

预处理时移除了标点符号
预处理时忽略了否定
忽略了词顺序
讽刺委婉的表达

总结

朴素贝叶斯(NB)基于条件独立性假设和语料库中的词频来进行实现。一方面，朴素贝叶斯是一个非常简单的模型，因为它不需要设置自定义任何参数；另一方面，朴素贝叶斯也有如下问题。

NB假设一段文本中的word相互独立，但在现实中往往不是这样。这会导致单个word的估计值低于或高于真实值。

在左图中，“sunny”和“hot”似乎是相互关联并且一定程度上和“desert”相关。而NB会给右图中中的word filling任务中“spring, summer, fall, winter”四个候选词相等的概率。显然这是不合理的。

NB的另一个问题是依赖训练集的分布。一个好的数据集应该包含相同比例的正例和负例。大多数可用的标注数据集都是人为平衡的。但在现实的推文流中，发送正面推文的频率大于负面推文的频率。原因之一是负面推文可能包含平台禁止或用户忽略的内容。也就是现实中的数据集会有更多噪声。

总结就是朴素贝叶斯的独立性假设很难得到保证，但是尽管如此该模型在某些情况下仍然运行良好。对于模型的训练，需要平衡训练数据集中正例和负例的相对频率，以便提供准确的结果。

hioog

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2. 情感分类与朴素贝叶斯

首先我们先回顾下（2.1），本文依然采用NLTK中的twitter corpus进行情感分类的二分类：positive和negative。在inference时需要计算P(pos)P(neg)∏i=0mP(wi∣pos)P(wi∣neg)\frac{P(pos)}{P(neg)}\prod_{i=0}^m\frac{P(w_i|pos)}{P(w_i|neg)}P(neg)P(pos)∏i=0mP(wi∣neg)P(wi∣pos)（定义ratio=P(wi∣Pos)P(wi∣Neg)ratio=
复制链接

扫一扫

专栏目录