【NLP学习笔记】2-数据读取和分析

最新推荐文章于 2023-02-08 16:58:11 发布

weixin_43871061

最新推荐文章于 2023-02-08 16:58:11 发布

阅读量338

点赞数 2

文章标签：可视化 python 数据分析机器学习

本文链接：https://blog.csdn.net/weixin_43871061/article/details/107525382

版权

数据读取和分析

Introduction

对nlp数据的读取和可视化，得出一些结论。

Task

pandas 读取数据文件
数据规律分布
句子长度分析
新闻类别分析

1、数据读取

import pandas as pd #pandas
dir = "/Users/titan/Desktop/dict/"
file_desc = "".join([dir, "train_set.csv.csv"]) 
train_df = pd.read_csv('file_desc', sep='\t', nrows=100) #读取100行数据
train_df.head() #查看数据前五行（对比python和R的语法，R就很明了head（XXXXX），python就喜欢XX.head类似于停顿）

从数据读取中可看到，第一列为新闻类别，第二列为新闻字符。

2、数据分析与描述

2.1 句子长度分析

train_df['text_len'] = train_df['text'].apply(lambda x: len(x.split(' ')))
print(train_df['text_len'].describe())# describe产生描述性分析的统计量
每个句子平均长度：907个字符构成，最短的句子长度为2，最长的句子长度为57921。

这里也可以基于直方图（可视化）来看。

2.2 新闻类别统计

train_df['label'].value_counts().plot(kind='bar')
plt.title('News class count')
plt.xlabel("category")

赛题的数据集类别分布存在较为不均匀的情况

2.3 字符分布统计

from collections import Counter
all_lines = ' '.join(list(train_df['text']))
word_count = Counter(all_lines.split(" "))
word_count = sorted(word_count.items(), key=lambda d:d[1], reverse = True)

print(len(word_count))
# 6869

print(word_count[0])
# ('3750', 7482224)

print(word_count[-1])
# ('3133', 1)

从统计结果中可以看出，在训练集中总共包括6869个字，其中编号3750的字出现的次数最多，编号3133的字出现的次数最少。

train_df['text_unique'] = train_df['text'].apply(lambda x: ' '.join(list(set(x.split(' ')))))
all_lines = ' '.join(list(train_df['text_unique']))
word_count = Counter(all_lines.split(" "))
word_count = sorted(word_count.items(), key=lambda d:int(d[1]), reverse = True)

print(word_count[0])
# ('3750', 197997)

print(word_count[1])
# ('900', 197653)

print(word_count[2])
# ('648', 191975)

这里还可以根据字在每个句子的出现情况，反推出标点符号。下面代码统计了不同字符在句子中出现的次数，其中字符3750，字符900和字符648在20w新闻的覆盖率接近99%，很有可能是标点符号。

结论

利用pandas读取数据库的操作
赛题中每个新闻字符平均数和其他描述性统计量。
赛题中新闻类别分布不均匀（类别不均衡，会严重影响模型的精度）
赛题总共包括7000-8000个字符

weixin_43871061

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【NLP学习笔记】2-数据读取和分析

数据读取和分析目录数据读取和分析IntroductionTask1、数据读取2、数据分析与描述2.1 句子长度分析2.2 新闻类别统计2.3 字符分布统计结论Introduction对nlp数据的读取和可视化，得出一些结论。Taskpandas 读取数据文件数据规律分布句子长度分析新闻类别分析1、数据读取import pandas as pd #pandasdir = "/Users/titan/Desktop/dict/"file_desc = "".join([dir, "t
复制链接

扫一扫