文本分类

最新推荐文章于 2024-03-02 20:36:08 发布

伟璇

最新推荐文章于 2024-03-02 20:36:08 发布

阅读量829

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/wwx123521/article/details/89667858

版权

NLP 专栏收录该内容

7 篇文章

订阅专栏

文本分类问题：给定文档p（可能含有标题t），将文档分类为n个类别中的一个或多个
文本分类应用：常见的有垃圾邮件识别，情感分析
文本分类方向：主要有二分类，多分类，多标签分类
文本分类方法：传统机器学习方法（贝叶斯，svm等），深度学习方法（fastText，TextCNN等）

传统文本分类

è¿éåå¾çæè¿°

文本预处理

文本预处理过程是在文本中提取关键词表示文本的过程，中文文本处理中主要包括文本分词和去停用词两个阶段。之所以进行分词，是因为很多研究表明特征粒度为词粒度远好于字粒度，其实很好理解，因为大部分分类算法不考虑词序信息，基于字粒度显然损失了过多“n-gram”信息。

停用词是文本中一些高频的代词连词介词等对文本分类无意义的词，通常维护一个停用词表，特征提取过程中删除停用表中出现的词，本质上属于特征选择的一部分。

文本表示：

文本表示的目的是把文本预处理后的转换成计算机可理解的方式，是决定文本分类质量最重要的部分。传统做法常用词袋模型（BOW, Bag Of Words）或向量空间模型（Vector Space Model），最大的不足是忽略文本上下文关系，每个词之间彼此独立，并且无法表征语义信息。

基于词袋模型的特征表示：

以词为单位（Unigram）构建的词袋可能就达到几万维，如果考虑二元词组（Bigram）、三元词组（Trigram）的话词袋大小可能会有几十万之多，因此基于词袋模型的特征表示通常是极其稀疏的。
（1）词袋特征的方法有三种：

Naive版本：不考虑词出现的频率，只要出现过就在相应的位置标1，否则为0；
考虑词频（即term frequency）：，认为一段文本中出现越多的词越重要，因此权重也越大；
考虑词的重要性：以TF-IDF表征一个词的重要程度。TF-IDF反映了一种折中的思想：即在一篇文档中，TF认为一个词出现的次数越大可能越重要，但也可能并不是（比如停用词：“的”“是”之类的）；IDF认为一个词出现在的文档数越少越重要，但也可能不是（比如一些无意义的生僻词）。
（2）优缺点：

优点：词袋模型比较简单直观，它通常能学习出一些关键词和类别之间的映射关系
缺点：丢失了文本中词出现的先后顺序信息；仅将词语符号化，没有考虑词之间的语义联系（比如，“麦克风”和“话筒”是不同的词，但是语义是相同的）；

基于embedding的特征表示：

通过词向量计算文本的特征。（主要针对短文本）

取平均：取短文本的各个词向量之和（或者取平均）作为文本的向量表示；
网络特征：用一个pre-train好的NN model得到文本作为输入的最后一层向量表示；

特征提取：

向量空间模型的文本表示方法的特征提取对应特征项的选择和特征权重计算两部分。特征选择的基本思路是根据某个评价指标独立的对原始特征项（词项）进行评分排序，从中选择得分最高的一些特征项，过滤掉其余的特征项。常用的评价有文档频率、互信息、信息增益、χ²统计量等。
特征权重主要是经典的TF-IDF方法及其扩展方法，主要思路是一个词的重要度与在类别内的词频成正比，与所有类别出现的次数成反比。

分类器

分类器基本都是统计分类方法了，基本上大部分机器学习方法都在文本分类领域有所应用，比如朴素贝叶斯分类算法（Naïve Bayes）、KNN、SVM、最大熵和神经网络等

深度学习文本分类方法

文本的分布式表示：词向量（word embedding）

CBOW Skip-gram softmax 负采样

深度学习文本分类模型

1）fastText

è¿éåå¾çæè¿°

原理是把句子中所有的词向量进行平均（某种意义上可以理解为只有一个avg pooling特殊CNN），然后直接接 softmax 层。其实文章也加入了一些 n-gram 特征的 trick 来捕获局部序列信息。fastText和CBOW类似，fastText预测标签，CBOW预测中间单词。

fastText与CBOW的区别
fastText的模型和CBOW的模型结构一样，虽然结构一样，但是仍有不同
一、目的不一样，fastText是用来做文本分类的，虽然中间也会产生词向量，但词向量是一个副产物，而CBOW就是专门用来训练词向量的工具。
fastText的输出层是预测句子的类别标签，而CBOW的输出层是预测中间词；
fastText的输入层是一个句子的每个词以及句子的ngram特征，而CBOW的输入层只是中间词的上下文，与完整句子没有关系；
fastText是一个文本分类算法，是一个有监督模型，有额外标注的标签
CBOW是一个训练词向量的算法，是一个无监督模型，没有额外的标签，其标准是语料本身，无需额外标注。
用fastText做文本分类的关键点是极大地提高了训练速度（在要分类的文本类别很多的情况下，比如500类），原因是在输出层采用了层级softmax，层级softmax将叶节点的词频变成文本分类数据集中每种类别的样本数量，霍夫曼树的结构也可以处理类别不均衡的问题（每种类别的样本数目不同），频繁出现类别的树形结构的深度要比不频繁出现类别的树形结构的深度要小，这也使得进一步的计算效率更高（意思是数目多的样本深度小，那很多样本都只需乘一次就把概率计算出来了，自然就快）。

2）TextCNN

è¿éåå¾çæè¿°

TextCNN详细过程：第一层是图中最左边的7乘5的句子矩阵，每行是词向量，维度=5，这个可以类比为图像中的原始像素点了。然后经过有 filter_size=(2,3,4) 的一维卷积层，每个filter_size 有两个输出 channel。第三层是一个1-max pooling层，这样不同长度句子经过pooling层之后都能变成定长的表示了，最后接一层全连接的 softmax 层，输出每个类别的概率。

特征：这里的特征就是词向量，有静态（static）和非静态（non-static）方式。static方式采用比如word2vec预训练的词向量，训练过程不更新词向量，实质上属于迁移学习了，特别是数据量比较小的情况下，采用静态的词向量往往效果不错。non-static则是在训练过程中更新词向量。推荐的方式是 non-static 中的 fine-tunning方式，它是以预训练（pre-train）的word2vec向量初始化词向量，训练过程中调整词向量，能加速收敛，当然如果有充足的训练数据和资源，直接随机初始化词向量效果也是可以的。

通道（Channels）：图像中可以利用 (R, G, B) 作为不同channel，而文本的输入的channel通常是不同方式的embedding方式（比如 word2vec或Glove），实践中也有利用静态词向量和fine-tunning词向量作为不同channel的做法。

一维卷积（conv-1d）：图像是二维数据，经过词向量表达的文本为一维数据，因此在TextCNN卷积用的是一维卷积。一维卷积带来的问题是需要设计通过不同 filter_size 的 filter 获取不同宽度的视野。

3）TextRNN + Attention

一方面用层次化的结构保留了文档的结构，另一方面在word-level和sentence-level使用attention。加入Attention之后最大的好处自然是能够直观的解释各个句子和词对分类类别的重要性。

è¿éåå¾çæè¿°

4）TextRCNN（TextRNN + CNN）

CNN善于捕捉文本中关键的局部信息，而RNN则善于捕捉文本的上下文信息（考虑语序信息），并且有一定的记忆能力。

è¿éåå¾çæè¿°

利用前向和后向RNN得到每个词的前向和后向上下文的表示：
这里写图片描述
这样词的表示就变成词向量和前向后向上下文向量concat起来的形式了，即：

最后再接跟TextCNN相同卷积层，pooling层即可，唯一不同的是卷积层 filter_size = 1就可以了，不再需要更大 filter_size 获得更大视野，这里词的表示也可以只用双向RNN输出。

主题特征：
LDA（文档的话题）：可以假设文档集有T个话题，一篇文档可能属于一个或多个话题，通过LDA模型可以计算出文档属于某个话题的概率，这样可以计算出一个DxT的矩阵。LDA特征在文档打标签等任务上表现很好。
LSI（文档的潜在语义）：通过分解文档-词频矩阵来计算文档的潜在语义，和LDA有一点相似，都是文档的潜在特征。