数据读取与数据分析
1 数据读取
前言:本次提供的是新闻文本数据,数据中得每个新闻是不定长的,格式采用csv进行存储,因此可以直接用Pandas完成数据读取的操作。(数据获取链接)
数据描述:含有训练集20w条样本,(见上一节讲解链接)
import pandas as pd #导入
train_df = pd.read_csv(r'D:/data1/train_set.csv', sep='\t',nrows=20000 )
train_df.head()
结果:
分析以上代码和结果:
- D:/data1:表示文件的存储路径;
- train_set:表示文件的命名;
- 分隔符sep,为每列分割的字符,设置为\t即可;
- 读取行数nrows,为此次读取文件的函数,是数值类型(注:若数据集比较大,建议先设置为100,也可直接去掉);
- head()默认显示前5条数据,数据以表格的形式,表中:第一列为新闻的类别,第二列为新闻的字符。
2 数据分析
任务要求:
- 本次数据中,新闻文本的长度是多少?
- 本次数据的类别分布是怎么样的,哪些类别比较多?
- 本次数据中,字符分布是怎么样的?
2.1 句子长度分析
- 句子长度分析思路:将数据中每行句子的字符使用空格进行隔开,接下来就可以直接统计单词的个数来得到每个句子的长度。
train_df['text_len'] = train_df['text'].apply(lambda x: len(x.split(' ')))
print(train_df['text_len'