天池NLP新闻文本分类学习赛心得-Task2

天池NLP新闻文本分类学习赛心得-Task2

赛题链接:https://tianchi.aliyun.com/competition/entrance/531810/introduction

今天按照昨天的存储方法后,再次读取数据相比昨天耗时就小的多了,并对文本数据进行初步处理及分析。

先来探究每条文本长度分布如何:
xin21
xin22

可以看到总共统计了20w条文本数据记录,其中最长的有57921个字符,最短的只有两个字符,字符长度基本上都在1500个左右。

下面在来看看哪种类型的新闻文本最多:
xin3
由下面的label对应的类型可以容易地知道,科技类新闻最多,其次是股票类。

所有新闻中出现最多的字符是什么?
xin4
在整个数据集中,所有文本是由6869中字符按照规律构成,其中3750字符出现次数最多,有可能为标点符号,而3133字符只出现了一次,可能是某星座类型新闻的特征字符。

从而可以推测出来,每个文本大概由几个句子构成,平均值为多少:
xin5
从上图知道,每篇新闻平均由80个句子构成。而那只有一个句子的新闻可能就是前面的得出的两个字符构成的文本。

总结

通过昨天和今天对赛题数据的初步理解和分析,把握新闻文本的特征,给之后的模型构建中提供一定的帮助,剔除无关字符,特征有效字符。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值