文本分类一些总结

ren.yz

已于 2022-04-14 17:35:19 修改

阅读量3.4k

点赞数 2

分类专栏：文本分类文章标签：分类数据挖掘人工智能

于 2022-02-18 23:32:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44630230/article/details/123012572

版权

文本分类专栏收录该内容

3 篇文章 0 订阅

订阅专栏

FastText：适用于文本长度长，且速度需求高的场景

TextCNN：适用于短文本场景，不适合长文本，引文卷积核尺寸不会太长，无法捕获长距离特征

DPCNN：对TextCNN的改进

在Region embedding时不采用CNN那样加权卷积的做法，而是对n个词进行pooling后再加个1x1的卷积，因为实验下来效果差不多，且作者认为前者的表示能力更强，容易过拟合
使用1/2池化层，用size=3 stride=2的卷积核，直接让模型可编码的sequence长度翻倍（自己在纸上画一下就get啦）
残差链接，参考ResNet，减缓梯度弥散问题

TextRNN：除了DPCNN那样增加感受野的方式，RNN也可以缓解长距离依赖的问题。

TextBiLSTM+Attention：前面介绍的几种方法，可以自然地得到文本分类的框架，就是先基于上下文对token编码，然后pooling出句子表示再分类。在最终池化时，max-pooling通常表现更好，因为文本分类经常是主题上的分类，从句子中一两个主要的词就可以得到结论，其他大多是噪声，对分类没有意义。而到更细粒度的分析时，max-pooling可能又把有用的特征去掉了，这时便可以用attention进行句子表示的融合

HAN：先对每个句子用 BiGRU+Att 编码得到句向量，再对句向量用 BiGRU+Att 得到doc级别的表示进行分类。

Bert：多试试不同的预训练模型，比如RoBERT、WWM、ALBERT

综上：适合长文本分类的模型包括FastText、HAN、Bert、XLNet。

前期准备：

1.数据集构建，贴近现实任务的文本分类，训练测试验证集。。

2.数据清洗，

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
文本分类一些总结

FastText：适用于文本长度长，且速度需求高的场景TextCNN：适用于短文本场景，不适合长文本，引文卷积核尺寸不会太长，无法捕获长距离特征DPCNN：对TextCNN的改进在Region embedding时不采用CNN那样加权卷积的做法，而是对n个词进行pooling后再加个1x1的卷积，因为实验下来效果差不多，且作者认为前者的表示能力更强，容易过拟合使用1/2池化层，用size=3 stride=2的卷积核，直接让模型可编码的sequence长度翻倍（自己在纸上画一下就get啦）
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。