零基础入门NLP之新闻分类

基于textcnn+word2vec的分类

  • 之前试验了fasttext进行文本分类的方法,最终效果并不是特别理想,比之前传统机器学习的得分稍低,这次试用textcnn+word2vec的方式进行训练
  • word2vec是采用n-gram或CBOW的方式对输入数据进行编码,不同于one-hot编码,word2vec文本向量小(不再是词典大小),也不具有稀疏性,同时还考虑到了每个单词前后文的信息
  • 这里使用gensim库进行词向量的训练在这里插入图片描述
  • 因为最终词向量是应用至embedding层,因此需要保存模型并建立对应转化表,得到最终导入embedding层的权重矩阵在这里插入图片描述
  • 和fasttext一样,还需要对数据进行长度统一,同时需要将输入数据转化成新词表的对应值
  • textcnn的网络结构主要是有三个不同大小卷积核的cnn加上全连接层构建而成在这里插入图片描述
  • 之后便可以使用该网络进行训练,同样是10个epoch,textcnn最终线上分数可到93.59,优于之前模型
  • 另外用word2vec加上fasttext发现效果并没有明显提升,不知道是哪里出现了错误
  • 除textcnn外还搭了textrnn,但是可能是数据处理不当,gpu显存不够,训练不起来
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值