数据读取
数据的每一列都是以\t为分割的字符
import pandas as pd
data=pd.read_csv('train_set.csv',sep='\t')
data.head()
数据可视化与分析
新闻长度分析
train_df['text_len']=train_df['text'].apply(lambda x: len(x.split(' ')))
print(train_df['text_len'].describe())
每条新闻平均由907个字符构成,最短的长度为2,最长的长度为57921
#将句子长度绘制直方图(直方图分为bins个柱体)
import matplotlib.pyplot as plt
_ =plt.hist(train_df['text_len'],bins=200)
plt.xlabel('Text char count')
plt.title(