【NLP学习笔记】2-数据读取和分析

数据读取和分析

Introduction

对nlp数据的读取和可视化,得出一些结论。

Task

  • pandas 读取数据文件
  • 数据规律分布
  • 句子长度分析
  • 新闻类别分析

1、数据读取

import pandas as pd #pandas
dir = "/Users/titan/Desktop/dict/"
file_desc = "".join([dir, "train_set.csv.csv"]) 
train_df = pd.read_csv('file_desc', sep='\t', nrows=100) #读取100行数据
train_df.head() #查看数据前五行(对比python和R的语法,R就很明了head(XXXXX),python就喜欢XX.head类似于停顿)

从数据读取中可看到,第一列为新闻类别,第二列为新闻字符。

2、数据分析与描述

2.1 句子长度分析

train_df['text_len'] = train_df['text'].apply(lambda x: len(x.split(' ')))
print(train_df['text_len'].describe())# describe产生描述性分析的统计量
每个句子平均长度:907个字符构成,最短的句子长度为2,最长的句子长度为57921。

这里也可以基于直方图(可视化)来看。

2.2 新闻类别统计

train_df['label'].value_counts().plot(kind='bar')
plt.title('News class count')
plt.xlabel("category")

赛题的数据集类别分布存在较为不均匀的情况

2.3 字符分布统计

from collections import Counter
all_lines = ' '.join(list(train_df['text']))
word_count = Counter(all_lines.split(" "))
word_count = sorted(word_count.items(), key=lambda d:d[1], reverse = True)

print(len(word_count))
# 6869

print(word_count[0])
# ('3750', 7482224)

print(word_count[-1])
# ('3133', 1)

从统计结果中可以看出,在训练集中总共包括6869个字,其中编号3750的字出现的次数最多,编号3133的字出现的次数最少。



train_df['text_unique'] = train_df['text'].apply(lambda x: ' '.join(list(set(x.split(' ')))))
all_lines = ' '.join(list(train_df['text_unique']))
word_count = Counter(all_lines.split(" "))
word_count = sorted(word_count.items(), key=lambda d:int(d[1]), reverse = True)

print(word_count[0])
# ('3750', 197997)

print(word_count[1])
# ('900', 197653)

print(word_count[2])
# ('648', 191975)

这里还可以根据字在每个句子的出现情况,反推出标点符号。下面代码统计了不同字符在句子中出现的次数,其中字符3750,字符900和字符648在20w新闻的覆盖率接近99%,很有可能是标点符号。

结论

  • 利用pandas读取数据库的操作
  • 赛题中每个新闻字符平均数和其他描述性统计量。
  • 赛题中新闻类别分布不均匀(类别不均衡,会严重影响模型的精度
  • 赛题总共包括7000-8000个字符
  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值