Task2 数据读取与数据分析
本章主要内容为数据读取和数据分析,具体使用Pandas库完成数据读取操作,并对赛题数据进行分析构成。
本章学习内容
https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12281897.0.0.209439a9qzgwFH&postId=118253
本章作业
1.假设字符3750,字符900和字符648是句子的标点符号,请分析赛题每篇新闻平均由多少个句子构成?
train_df['punctuation'] = train_df['text'].apply(lambda x:sum([x.count('3750'),x.count('900'),x.count('648')]))
train_df['punctuation'].mean()
79.5
2.统计每类新闻中出现次数对多的字符
from collections import Counter
key = ['科技', '股票', '体育', '娱乐', '时政', '社会', '教育', '财经', '家居', '游戏', '房产', '时尚', '彩票','星座']
for i in range(0,14):
temp = train_df.loc[train_df['label'] == i,]
all_lines = ' '.join(list(temp['text']))
word_count = Counter(all_lines.split(" "))
word_count = sorted(word_count.items(), key=lambda d:d[1], reverse = True)
print('%s类新闻中出现次数最多的字符为%s,出现次数为%d'%(key[i],word_count[0][0],word_count[0][1]))
科技类新闻中出现次数最多的字符为3750,出现次数为610
股票类新闻中出现次数最多的字符为3750,出现次数为531
体育类新闻中出现次数最多的字符为3750,出现次数为956
娱乐类新闻中出现次数最多的字符为3750,出现次数为239
时政类新闻中出现次数最多的字符为3750,出现次数为78
社会类新闻中出现次数最多的字符为3750,出现次数为193
教育类新闻中出现次数最多的字符为3750,出现次数为491
财经类新闻中出现次数最多的字符为3750,出现次数为214
家居类新闻中出现次数最多的字符为3750,出现次数为68
游戏类新闻中出现次数最多的字符为3750,出现次数为51
房产类新闻中出现次数最多的字符为3750,出现次数为152
时尚类新闻中出现次数最多的字符为3750,出现次数为102
彩票类新闻中出现次数最多的字符为4464,出现次数为59
星座类新闻中出现次数最多的字符为648,出现次数为6