![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
文本分类
ren.yz
这个作者很懒,什么都没留下…
展开
-
论文:Graph Convolutional Networks for Text Classification
TextGCN:使用图卷积网络进行文本分类,基于词共现和文档词关系为语料库构建一个单独的文本图,word和document的初始向量为one-hot表示。通过GCN的学习其嵌入表示,下游分类任务优于现有方法。优势:图神经网络由于具有丰富的关系结构,能够在图嵌入中保存全局的结构信息。GCN的方法不再赘述,主要讲述构图的方法,以“O”开头的节点是文档节点,其他节点是单词节点。黑色粗体边是文档-单词边,灰色细边是单词-单词边。R(x)表示x的表示(embedding)。不同的颜色意味着不同的文原创 2022-01-18 21:44:14 · 2885 阅读 · 0 评论 -
LDA主题模型实现
整体过程就是:一、首先拿到文档集合,使用分词工具进行分词,得到词组序列;二、为每个词语分配ID,既corpora.Dictionary;三、分配好ID后,整理出各个词语的词频,使用“词ID:词频”的形式形成稀疏向量,四、使用LDA模型进行训练。五、inference进行主题推断代码实现:第二步和第三步dictionary = corpora.Dictionary(texts) corpus = [dictionary.doc2bow(text) for ...原创 2022-02-13 20:26:23 · 1996 阅读 · 0 评论 -
文本分类一些总结
FastText: 适用于文本长度长,且速度需求高的场景TextCNN:适用于短文本场景,不适合长文本,引文卷积核尺寸不会太长,无法捕获长距离特征DPCNN:对TextCNN的改进在Region embedding时不采用CNN那样加权卷积的做法,而是对n个词进行pooling后再加个1x1的卷积,因为实验下来效果差不多,且作者认为前者的表示能力更强,容易过拟合 使用1/2池化层,用size=3 stride=2的卷积核,直接让模型可编码的sequence长度翻倍(自己在纸上画一下就get啦)原创 2022-02-18 23:32:35 · 3444 阅读 · 0 评论