NLP笔记：文本分类（基于MLE和朴素贝叶斯实现情感分类，并利用混淆矩阵、F度量、宏平均/微平均进行评估）

最新推荐文章于 2024-01-29 21:36:56 发布

yushan.ji

最新推荐文章于 2024-01-29 21:36:56 发布

阅读量143

点赞数 1

分类专栏：自然语言处理（NLP）文章标签：自然语言处理 nlp 分类

本文链接：https://blog.csdn.net/yushan_ji/article/details/134024817

版权

自然语言处理（NLP）专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文本分类

基于规则的方法

人工为不同类别的文本指定划分规则，例如：

IF there exists word w in document d such that w in [good, great, extra-ordinary, …],
THEN output Positive

IF email address ends in [ithelpdesk.com, makemoney.com, spinthewheel.com, …]
THEN output SPAM

比较准确（人工制定的规则）
规则很难全面，有些规则可能不为人所知
价格昂贵
不容易推广

监督学习的方法

输入：
- m个分类
- n个已标记好分类的文本
输出：
- 一个函数F，实现从文本到分类的映射（通过学习得到）

基本流程

文本预处理

去噪、分句、分词、去停词、取词干、特征选择、词加权

过滤：去掉特殊字符、标点符号等
标记化：将句子切分为单独的字符，通常为单词
去停用词：去掉不重要或无意义的通用词
词形还原：保留词语的核心意义==（情感分类需要做词形还原）==
剪枝：删除低频词

文本表示

把自然语言文本转换为一种能够被计算机或算法识别和处理简洁的格式

向量空间模型

词袋模型

忽略了文本的内容（不考虑语义），只考虑在相应词表中出现的词的个数

词袋模型是空间向量模型的一个特例

基本思想是假定对于一个文本，忽略其词序和语法、句法，仅仅将其看做是一些词汇的集合，而文本中的每个词汇都是独立的。

简单说就是讲每篇文档都看成一个袋子（因为里面装的都是词汇，所以称为词袋，Bag of words即因此而来），然后看这个袋子里装的都是些什么词汇，将其分类。如果文档中猪、马、牛、羊、山谷、土地、拖拉机这样的词汇多些，而银行、大厦、汽车、公园这样的词汇少些，我们就倾向于判断它是一篇描绘乡村的文档，而不是描述城镇的。

参考：词向量之词袋模型(BOW)详解_bow词袋模型-CSDN博客

输入文本集
- 其中包含200个document
- 每个document运用词袋模型进行文本表示，形成每个文本的特征向量 $(f_1,f_2,\ldots,f_{99})$
最终得到下图中的文本特征矩阵

特征提取

根据某个评价指标独立的对原始特征项（词项）进行评分排序，从中选择得分最高的一些特征项，过滤掉其余的特征项。常用的评价有文档频率、互信息、信息增益、 $\chi^2$ 统计量等

MLE与Naive Bayes实现情感分类

给定训练数据中的<x, y>对，我们可以训练一个模型来估计新的数据的类概率
通过一组单词（特征）表示（假设其中每个单词（特征）独立于另一个单词（特征）），我们可以使用极大似然估计和Naïve Bayes来预测
这两类方法准确度逊色于其他模型，但是速度快，是其他模型的基础

最大似然估计分类 MLE

比较每个类别下数据的可能性，然后选择可能性最高的类别

例如：类别为 $y$ 的数据 $X$ 发生的概率
$P(X=(x_1,x_2,\ldots,x_n)|Y=y)$

条件概率

$P(X_i=\text{really}|Y=positive)$

独立性假设

假设每个词的位置不重要
词与词之间在给定类别C的下是条件独立的

$P(w_1,w_2,\ldots,w_n|c)=\prod_{i=1}^{n} P(w_i|c)$

例如：

对数似然

乘以许多小概率（都小于1）会导致数值下溢（收敛到0）
$\log{\prod_{i=1}^{n}P(w_i|c)}=\sum_{i=1}^{n}\log{P(w_i|c)}$

贝叶斯分类器

$=\frac{P(Y=y)P(X=x|Y=y)}{\sum_y P(Y=y)P(X=x|Y=y)}$

需要求的概率：已知 $X$ ，判定 $Y$ 的分类为 $y$ 的概率（即贝叶斯估计的后验概率）
- 为了将概率转化为分类决策，我们只需选择具有最高后验概率的标签 $\hat{y}$
  $\hat{y}=argmax_{y\in Y}P(Y|X)$
$P (Y = y)$ 是类别 $y$ 的先验概率，一般基于训练集得到
$P (X = x ∣ Y = y)$ 是类别为 $y$ 的数据 $X$ 发生的概率的最大似然估计

例如：

朴素贝叶斯 Naive Bayes

原理

原理基于贝叶斯分类器

记 $C$ 为所有类的集合， $D$ 为文本集
$c_{MAP}$ 指"maximum a posteriori"，即最可能的类

$\begin{split} c_{MAP} &=argmax_{c\in C}P(c|d)\\ &=argmax_{c\in C}\frac{P(d|c)P(c)}{P(d)}\\ &\propto{argmax_{c\in C}P(d|c)P(c)} \end{split}$

注：

$P (d ∣ c)$ 指类别为 $c$ 的条件下，产生文本 $d$ 的条件概率
$P (c)$ 指类别 $c$ 的先验概率
由于我们只需要选择出最可能的类，因此不需要考虑 $P (d)$ ，也就是说不用计算出具体的概率值，只需要比较不同类的概率大小

如何估算概率

给定标记好的训练集： $\{(d_1,c_1),(d_2,c_2),\ldots,(d_n,c_n)\}$

其中对于每个文本 $d_i$ ，有 $d_i=(w_1,w_2,\ldots,w_k)$ ，表示文本 $d_i$ 中有 $k$ 个词

需要求出：
$c_{MAP}\propto{argmax_{c\in C}P(c)P(d|c)}=argmax_{c\in C}P(c)\prod_{i=1}^{k} P(w_i|c)$

$\hat{P}(c_j)=\frac{count(c_j)}{n}$
- 其中 $n$ 为训练集总数
- $count(c_j)$ 指训练集中类别为 $c_j$ 的文本数量
$\hat{P}(w_i|c_j)=\frac{count(w_i,c_j)}{\sum_{w\in V}count(w,c_j)}$
- 即 $c_j$ 类中，词语 $w_i$ 在该类所有词语中的占比

平滑

常用拉普拉斯平滑，取 $\alpha=1$ ，也称加一平滑

为防止训练集某个类中某个词出现频率为0，通过词袋模型统计出词表后，我们在词表中每个词语的出现次数加 $\alpha$ （关于平滑完整介绍见NLP笔记：n-grams语言模型-CSDN博客）

此时MLE估计结果化为：
$\hat{P}(w_i|c_j)=\frac{count(w_i,c_j)+\alpha}{\sum_{w\in V}count(w,c_j)+|V|\alpha}$

实例

评估

混淆矩阵 Confusion Matrix

TP(True Positive)：将正类预测为正类数，真实为0，预测也为0
FN(False Negative)：将正类预测为负类数，真实为0，预测为1
FP(False Positive)：将负类预测为正类数，真实为1，预测为0
TN(True Negative)：将负类预测为负类数，真实为1，预测也为1

	correct	not correct
selected	TP	FP
not selected	FN	TN

准确率： $accuracy=\frac{TP+TN}{TP+TN+FP+FN}$
精确率： $p rec i s i o n = TP / (TP + FP)$
召回率： $rec a ll = TP / (TP + FN)$

F-Measure

F度量是一个评估Precision/Recall权衡的组合度量（加权调和平均数）
$\begin{split} F &=\frac{1}{\alpha\frac{1}{P}+(1-\alpha)\frac{1}{R}}\\ &=\frac{\frac{1}{\alpha}PR}{(\frac{1}{\alpha}-1)P+R}\\ &\overset{\beta^2=\frac{1}{\alpha}-1}{=}\frac{(\beta^2+1)PR}{\beta^2P+R} \end{split}$

$\alpha$ 表示对精确率和召回率的相对重视程度
- $\alpha \rightarrow 0$ 时，更重视召回率Recall
- $\alpha \rightarrow 1$ 时，更重视精确率Precision
$\beta$ 是用来调整精确率和召回率权衡的参数
- 通常取 $\beta=1$ ，表示对精确率和召回率平等看待
  - 此时的F值记为 $F_1$ ，即 $F_1=\frac{2PR}{P+R}$
- $\beta>1$ 时，更重视精确率
- $\beta<1$ 时，更重视召回率

综合评估

混淆矩阵和F度量值都是对单个类别的评估
微平均/宏平均则用于汇总多个类别的性能指标，如准确率、召回率和F1分数，以便评估整个分类器的性能

一个比较好的解释：

The difference between macro and micro averaging is that macro averaging gives equal weight to each category while micro averaging gives equal weight to each sample. If we have the same number of samples for each class, both macro and micro will provide the same score.

有关宏平均/微平均的更详细解释可以参考：model evaluations - Micro Average vs Macro average Performance in a Multiclass classification setting - Data Science Stack Exchange

宏平均

对每个类 $c_i\in C$ 分别统计 $P rec i s i o n$ 、 $R ec a ll$ 和 $F_1$ 值，记为 $P_i,R_i,F_i$
计算算术平均值
- $Macro\_Precision=(\sum_{i=1}^{n}P_i)/n$
- $Macro\_Recall=(\sum_{i=1}^{n}R_i)/n$
- $Macro\_F_1=(\sum_{i=1}^{n}F_i)/n$

微平均

将每个类 $c_i\in C$ 的混淆矩阵相加，即
$\text{Confusion Matrix of All Classes} \left( =\begin{bmatrix} TP_{All}&FP_{All}\\ FN_{All}&TN_{All} \end{bmatrix} \right) =\sum_{i=1}^{n} \begin{bmatrix} TP_i&FP_i\\ FN_i&TN_i \end{bmatrix}$
计算总体混淆矩阵的 $P rec i s i o n$ 、 $R ec a ll$ 和 $F_1$ 值
- $Micro\_Precision=TP_{All}/(TP_{All}+FP_{All})$
- $Micro\_Recall=TP_{All}/(TP_{All}+FN_{All})$
- $Micro\_F_1=\frac{2\times Micro\_Precision\times Micro\_Recall}{Micro\_Precision+Micro\_Recall}$

yushan.ji

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
NLP笔记：文本分类（基于MLE和朴素贝叶斯实现情感分类，并利用混淆矩阵、F度量、宏平均/微平均进行评估）

1. 文本预处理2. 利用词袋模型实现文本表示3. 基于MLE和朴素贝叶斯实现情感分类4. 利用混淆矩阵、F度量、宏平均/微平均对情感分类效果进行评估
复制链接

扫一扫