20~22短文本分类文献总结

最新推荐文章于 2024-04-24 11:55:13 发布

奋斗的海绵

最新推荐文章于 2024-04-24 11:55:13 发布

阅读量208

点赞数 1

分类专栏：短文本分类文章标签：分类机器学习深度学习

本文链接：https://blog.csdn.net/weixin_44695049/article/details/126014594

版权

短文本分类专栏收录该内容

13 篇文章 0 订阅

订阅专栏

A Short Text Classification Method Based on Convolutional Neural Network and Semantic Extension

基于卷积神经网络和语义拓展的短文本分类算法

提出问题

为了解决在短文本分类问题由于数据的稀疏性和不充分的语义特征从而导致的在短文本分类上的性能不优越问题，我们提出了基于卷积神经网络和语义扩充的短文本分类方法来解决上述问题.

解决方法

本算法为了应对上面所述的性能问题的做法：
1、提出通过提升相似性来词向量表的覆盖率（在预处理过程中）
2、提出一种短文本语义拓展方法，通过添加一种额外的机制到神经网络中，从而在短文本中可以找到相关的词。
3、同时语义拓展被分别应用在短文本中句子以及相关词层次上。
4、最后，短文本的特征选择通过经典的卷积神经网络的方法来施行。

结果

本算法的结果表明：该算法在短文本的分类过程中十分灵活，同时分类的效率得到了有效的提升

Multiple weak supervision for short text classification

针对短文本分类的多类弱监督

提出问题

提出问题：对于短文本分类，不充分的标签数据、数据的稀疏性、不均衡的分类成为了三个主要的挑战。为了解决上面的问题，本文中提出了多重弱监督方法，这种方法可以自动标记无标签的数据。

解决方法

做法：
1、通过条件独立模型，来生成概率标签，
2、通过在公共数据集、显示数据集、同义词数据上的实验表明这种多重监督方法可以解决无标签不平衡短文本分类问题

结果

结论：在不减少精度、召回率、F1的情况下，还可以通过添加距离监督聚类来提升这些值，这种方法可以被用来满足许多不同的应用需要。

Chinese Short Text Classification Based on Dependency Syntax Information

基于依赖句法信息的中文短文本分类

提出问题

提出问题：为了更好解决短文本的特征提取问题，本文中提出了基于依赖句法信息的短文本分类算法。

解决方法

在文本表示方面，将作者训练了基于句子依赖三元组的词向量，通过连接依赖词向量以及原始的词向量，文本可以通过语义和句法进行表示。
在分类模型方面，作者使用短文本的依赖句法信息来指导递归神经网络的状态更新处理，
除了上述之外，作者在中文新闻标题数据集上跑了实验。

结果

结论：实验表明本文中提出的方法可以显著的提升短文本分类的性能

Chinese Short Text Classification by ERNIE Based on LTC_Block。

使用基于LTC_Block的ERNIE模型进行中文短文本分类

提出问题

短文本分类是NLP的重要基础研究导向。它的性能依赖于特征提取的方法以及特征表示的方法。
本文解决的问题：在文本中的一词多义问题。

解决方法

解决方案：

提出LTC-BLOCK-based短文本分类模型又称为ENNIE模型，进行对中文短文本进行分类、在语料库中提取语义，来解决上述问题。在本模型中，LTC_Block是一个由BiLSTM和TextCNN组成的双通道结构化单元。LTC_Block被用来提取上下文的序列以及全部的语义特征，而剩下的连接就被用来整合特征以及更进一步的分类短文本。

结果

结论：在两个不同数据集上的实验结果表明，ERNIE相比较于主流的模型而言实现了更好的分类性能，通知提升了灵活性以及效率

融合多头自注意力机制的中文短文本分类模型

提出问题

针对中文短文本缺乏上下文信息导致的语义模糊从而存在的特征稀疏问题

解决方法

提出了一种融合卷积神经网络和多头自注意力机制（CNN-MHA）的文本分类模型。首先，借助现有的基于Transformer的双向编码器表示（BERT）预训练语言模型以字符级向量形式来格式化表示句子层面的短文本；然后，为降低噪声，采用多头自注意力机制（MHA）学习文本序列内部的词依赖关系并生成带有全局语义信息的隐藏层向量，再将隐藏层向量输入到卷积神经网络（CNN）中，从而生成文本分类特征向量；最后，为提升分类的优化效果，将卷积层的输出与BERT模型提取的句特征进行特征融合后输入到分类器里进行再分类。

结果

将CNN-MHA模型分别与TextCNN、BERT、TextRCNN模型进行对比，
实验结果表明，改进模型在搜狐新闻数据集上的F1值表现和对比模型相比分别提高了3. 99%、0. 76%和2. 89%，验证了改进模型的有效性。

Combining context-relevant features with multi-stage attention network for short text classification

针对短文本分类结合文本相关性和多级注意力网络

提出问题

提出问题：传统的方法使用外部信息来解决短文本稀疏性问题实现了很好的结果，但是由于没有考虑上下文的相关特征，从而导致准确度有待提升（缺点）。
基于RNN和CNN的深度学习模型也存在相应的缺点，（虽然他们在短文本分类领域十分常用）：
RNN：由于在平行化的形式中无法保证很好的性能从而导致较低的性能；
CNN：忽略了词与词之间的序列以及关系，从而导致效率很低

解决方法

解决方法：
使用结合多级注意力模型的上下文相关特征并且基于时序卷积网络和CNN的短文本分类方法。称为CRFA。

做法：
1、使用概念知识图谱来做为外部知识，从而富集语义语义表示，目的是为了解决短文本数据的稀疏性和歧义性。（解决传统传统分类器之前解决的问题）
2、作者设置了一个基于TCN和CNN的多级注意力模型，其中TCN被引入的目的是提升文中提出模型的平行化从而获取更高的性能。（解决了RNN没有解决的问题）
具有区别性的特征被包含在每一个不同的级别中，这是通过融合注意力和不同层次的CNN来实现的，目的是为了更好的准确性。（解决传统的分类器准确性不足的问题）
3、TCN被采用也是为了捕捉在词和概念层次的上下文相关的特征。（传统的分类器的准确性有待提升目的就是因为忽略了上下文相关的特征，这里也是为了提升准确性）
与此同时，为了度量这些特征的重要性，基于注意力的WTCN和CTCN以及不同层次的CNN被用在每一个级别，目的是来关注更重要特征的信息。（为了更好的实现特征选择）

结果

结果：本文中提到的的CRFA模型表现出了在短文本分类上的效率以及性能，相比于其他基于CNN和RNN的短文本分类模型而言。

Concept and Dependencies Enhanced Graph Convolutional Networks for Short Text Classification

针对短文本分类的概念和依赖增强图卷积网络

提出问题

短文本分类的文本过短，同时产生了稀疏的文本表示，缺乏语义信息。针对上面的问题，全球的学者首先提出了使用深度学习来来解决这些问题，但是
（缺点）现存的方法不能高效的使用概念知识以及长距离的词依赖信息。

解决方法

做法：1、基于从文本构成视角的图神经网络来看，作者提出了针对短文分类使用概念和依赖提升图卷积网络的模型；
2、首先，词之间的共现关系、文档和词之间的归属关系、长距离的词的依赖关系、外部概念和词的连接关系，这些关系被定义。
3、然后以及基于四个关系的针对完整文本语料库的文档图就被构建出来，
4、文本图作为图卷积神经网络的输入，并且每一个文档节点分类在两层卷积之后就会被预测出来

结果

结果：实验结果表明作者提出的方法在多种经典的英文分类数据集上表现出最好的性能

tax2vec: Constructing Interpretable Features from Taxonomies for Short Text Classification

针对短文本分类从分类法中构架可解释性的特征

提出问题

在文本分类任务中，背景知识的使用在很大程度上是未开发的。本文将词汇分类作为构建新的语义特征的手段，以提高学习后的分类器的性能和鲁棒性.

解决方法

作者提出了tax2vec，一个构建基于分类的特征的并行算法，并演示了它在六个短文本分类问题上的使用:预测性别、性格类型、年龄、新闻话题、药物副作用和药物有效性。

tax2vec还演示了提取特定于语料库的语义关键字的功能.

Extremely Short Chinese Text Classification Method Based on Bidirectional Semantic Extension

基于双向语义拓展的极短中文文本分类算法

提出问题

提出问题：虽然短文本分类方法实现了重要的进展，但是极短中文文本像税务发票数据是不同于传统的短文本的，由于缺乏上下文的语义信息同时特征稀疏、极短的长度。现存的短文本分类方法在极短文本中很难实现很好地结果。

解决方案

解决问题：（文中提出了一种基于双向语义拓展的极短文本分类方法）
做法：
1、引入中文知识图谱来拓展文本的双向语义信息
2、给数据打标签来拓宽极短文本
3、简化特征的稀疏性问题
4、哈希向量化被用来避免由于缺乏上下文信息从而造成的语义问题

结果

结果：通过分析真实税务发票数据表明作者提出方法的高效性

HGAT: Heterogeneous Graph Attention Networks for Semi-supervised Short Text Classification

针对半监督短文本分类的异构图注意力网络

提出问题

提出问题：短文本分类在新闻的标注中已经被广泛的探索了，从而提供了更加有效搜索策略以及对于搜索引擎而言有更加高效的结果。但是大部分的现存的方法中对于长文本的关注较多，对于短文本的关注较少，更多是的因为短文本的稀疏性以及有标签数据的不够充分所导致。

解决方法

做法：
1、文中提出了一种新型的使用基于异构图神经网络的半监督短文本分类方法，借助局限的有标签数据以及大量的无标签数据通过信息传播流动在整个图中。
2、首先，作者提出了一种灵活的异构信息网络（HIN）框架构建短文本，这种模型可以整合许多不同类型的额外的信息与此同时，捕捉他们之间的相关性，来解决语义的稀疏性问题。
3、接下来，作者提出了HGAT模型，其中嵌入了HIN模型来实现基于双级注意力机制短文本分类，包括结点层次和类型层次的注意力，为了高效的分类最新到来的文本没有事先存在于HIN中，我么拓展我们的模型HGAT来进行归纳学习，从而避免对于HIN演化的模型重复训练。

结果

结果：在单标签以及多标签的分类表明，我们的提出的HGAT模型明显优于通过基准数据集测试的先进的办法。

Hierarchical Heterogeneous Graph Representation Learning for Short Text Classification

针对短文本分类层次异构图表示学习

提出问题：

本文中提出的基于图神经网络建立的新的处理短文本分类的方法，SHINE。

解决方法

做法：
1、文中提到的新的方法SHINE，是基于图神经网络的，首先，对短文本数据集进行建模，从而作为分层的异构图，这个异构图由词级别的组件图组成，这些组件图介绍了更多的语义和句法信息。
2、之后，该方法动态学习了一个短的文档图，该图可以促进有效标签在相似短文本中的传播，
3、最后，在与现存的基于GNN的算法相比较，SHINE对相同类型的节点之间相互作用有更好的探索，同时可以捕捉到短文本之间的相似性。

结果

结果：在多种多样的基准短文本数据集上的拓展实验表明，SHINE连续的优于一些先进的算法，尤其是在处理更好的标签数据上。

Improving short text classi cation through global augmentation methods

通过全局增强方法来提升短文本分类

提出问题

文中主要阐述通过全局增强的方式来增强短文本分类的方法。

做法

作者说明，
1、当人们无法访问正式的同义词模型时，基于word2vector的扩展是一个可行的选择
2、使用mixup算法可以进一步提升在基于增强所有文本的性能，同时减少在一个测试的深度学习模型的过度拟合所带来的影响。

Improving Short Text Classification using Information from DBpedia Ontology

通过从DBpedia Ontology中提取得来的信息来提升短文本分类

提出问题

提出问题：由于短文本文档的稀疏性从而导致了比较差的分类性能。

解决方法

解决方法：
1、我们提出一种新的方法，首先，通过DBpedia Spotlight framework来识别相关的概念，并且通过从DBpedia ontology数据集中提取用来富集文本信息内容，这样可以减少稀疏性。
2、我们使用6个富集方法，并且使用7个分类算法在4个数据集上进行检测，结果相比较与基准方法有更好的性能。

结果

结果文中提出的文本富集方法显著的提升了短文本分类的性能，同时并对不同的输入源、域和可用训练数据的大小具有鲁棒性。文中的提出的富集方法被证明对于短文本文档的分类是有益的，尤其是当只有很少数量的文档对训练来说是有用的时候。

Explaining short text classification with diverse synthetic exemplars and counter‑exemplars

使用多类合成正例和反例来解释短文本分类

提出问题

文中提出了一种新的方法XSPELLS，这种方法是与模型无关的局部方法，用来解释在短文本分类中黑盒模型的决定，

解决方法

该解释由一系列范例和反例组成。前者是由黑框分类的示例，与要解释的文本具有相同的标签。后者是被归类为不同标签(反事实的一种形式)的例子。这两者在意义上都是十分接近需要解释的文本含义的，并且都是有意义的句子。
同时XSPELLS生成了这些文档的邻居，并且使用变量自动编码来解释潜在的语义空间。同时在生成的文档近邻中学习决策树。其中，反例的多样化的建模作为一个最优化问题，由一个有理论保障的贪心算法来解决。