零基础入门NLP之新闻分类

FastText的实现

  • 本次试验是基于fasttext的文本分类
  • 使用pip install fasttext可安装fasttext库
  • 因某些原因本机安装fasttext出错,于是使用pytorch写了简易的fasttext网络在这里插入图片描述
  • 这里首先导入了训练数据和测试数据,由于使用fasttext第一层为embedding层,需要将每一条数据的文本个数调整为固定值,因此选取了文本最大值进行截断(未达到的使用未使用编码填充)
  • 之前观察了单词的对应情况,由于数据进行脱敏处理得到的全为数字,便不建立词库对应表,直接使用其数字进行embedding操作在这里插入图片描述
  • 建立数据集,方便使用dataloader加载数据在这里插入图片描述
  • 搭建网络,网络结构为一层embedding,一个线性层,一个bn层,一个relu层和最后的全连接层(fasttext原文使用的是结构化的sigmoid激活函数,这里简易版本使用relu激活函数)
  • 使用该网络训练了10个epoch,最终线上0.909,分数比之前传统机器学习要稍低,可尝试加入预训练的词向量进行embedding,测试结果
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值