数据读取和分析
Introduction
对nlp数据的读取和可视化,得出一些结论。
Task
- pandas 读取数据文件
- 数据规律分布
- 句子长度分析
- 新闻类别分析
1、数据读取
import pandas as pd #pandas
dir = "/Users/titan/Desktop/dict/"
file_desc = "".join([dir, "train_set.csv.csv"])
train_df = pd.read_csv('file_desc', sep='\t', nrows=100) #读取100行数据
train_df.head() #查看数据前五行(对比python和R的语法,R就很明了head(XXXXX),python就喜欢XX.head类似于停顿)
从数据读取中可看到,第一列为新闻类别,第二列为新闻字符。
2、数据分析与描述
2.1 句子长度分析
train_df['text_len'] = train_df['text'].apply(lambda x: len(x.split(' ')))
print(train_df['text_len'].describe())# describe产生描述性分析的统计量
每个句子平均长度:907个字符构成,最短的句子长度为2,最长的句子长度为57921。
这里也可以基于直方图(可视化)来看。
2.2 新闻类别统计
train_df['label'].value_counts().plot(kind='bar')
plt.title('News class count')
plt.xlabel("category")
2.3 字符分布统计
from collections import Counter
all_lines = ' '.join(list(train_df['text']))
word_count = Counter(all_lines.split(" "))
word_count = sorted(word_count.items(), key=lambda d:d[1], reverse = True)
print(len(word_count))
# 6869
print(word_count[0])
# ('3750', 7482224)
print(word_count[-1])
# ('3133', 1)
从统计结果中可以看出,在训练集中总共包括6869个字,其中编号3750的字出现的次数最多,编号3133的字出现的次数最少。
train_df['text_unique'] = train_df['text'].apply(lambda x: ' '.join(list(set(x.split(' ')))))
all_lines = ' '.join(list(train_df['text_unique']))
word_count = Counter(all_lines.split(" "))
word_count = sorted(word_count.items(), key=lambda d:int(d[1]), reverse = True)
print(word_count[0])
# ('3750', 197997)
print(word_count[1])
# ('900', 197653)
print(word_count[2])
# ('648', 191975)
这里还可以根据字在每个句子的出现情况,反推出标点符号。下面代码统计了不同字符在句子中出现的次数,其中字符3750,字符900和字符648在20w新闻的覆盖率接近99%,很有可能是标点符号。
结论
- 利用pandas读取数据库的操作
- 赛题中每个新闻字符平均数和其他描述性统计量。
- 赛题中新闻类别分布不均匀(类别不均衡,会严重影响模型的精度)
- 赛题总共包括7000-8000个字符