零基础入门NLP之新闻分类

数据分析

  • 对赛题有一个大致了解之后接下来就是数据分析过程
  • 使用pandas读取训练数据和测试数据
  • 训练数据一共20W条,由label和text两列构成,label是其所属类别,text由其文本进行脱敏处理后得到的数字构成
  • 接下来统计句子的长度
    在这里插入图片描述
  • 可以看出最短句子仅两个单词构成,最长句子由55757个单词构成,大部分句子由1000左右单词组成
  • 接下来看一下类别分布情况
    在这里插入图片描述
  • 类别分布不均衡,最少类与最多类之间差距过大
  • 统计新闻中单词出现频次在这里插入图片描述
  • 可以看出出现最多的为3750,900,648,几乎在每一条新闻中都出现,这里推测其为标点符号
  • 接下来看看每一个标签对应单词出现频次在这里插入图片描述- 这里没有去除三个被认为是标点符号的部分,但打印了每一标签前10出现频次的单词,大致能看出一些标签有着专属对应单词
  • 以上便是简单的数据分析过程,大致了解了文本中单词的出现频次以及标签中单词的出现频次
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值