Task2 数据读取与数据分析

Task2 数据读取与数据分析

本章主要内容为数据读取和数据分析,具体使用Pandas库完成数据读取操作,并对赛题数据进行分析构成。

本章学习内容

https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12281897.0.0.209439a9qzgwFH&postId=118253

本章作业

1.假设字符3750,字符900和字符648是句子的标点符号,请分析赛题每篇新闻平均由多少个句子构成?

train_df['punctuation'] = train_df['text'].apply(lambda x:sum([x.count('3750'),x.count('900'),x.count('648')]))
train_df['punctuation'].mean()

79.5
2.统计每类新闻中出现次数对多的字符

from collections import Counter
key = ['科技', '股票', '体育', '娱乐', '时政', '社会', '教育', '财经', '家居', '游戏', '房产', '时尚', '彩票','星座']
for i in range(0,14):
    temp = train_df.loc[train_df['label'] == i,]
    all_lines = ' '.join(list(temp['text']))
    word_count = Counter(all_lines.split(" "))
    word_count = sorted(word_count.items(), key=lambda d:d[1], reverse = True)
    print('%s类新闻中出现次数最多的字符为%s,出现次数为%d'%(key[i],word_count[0][0],word_count[0][1]))

科技类新闻中出现次数最多的字符为3750,出现次数为610
股票类新闻中出现次数最多的字符为3750,出现次数为531
体育类新闻中出现次数最多的字符为3750,出现次数为956
娱乐类新闻中出现次数最多的字符为3750,出现次数为239
时政类新闻中出现次数最多的字符为3750,出现次数为78
社会类新闻中出现次数最多的字符为3750,出现次数为193
教育类新闻中出现次数最多的字符为3750,出现次数为491
财经类新闻中出现次数最多的字符为3750,出现次数为214
家居类新闻中出现次数最多的字符为3750,出现次数为68
游戏类新闻中出现次数最多的字符为3750,出现次数为51
房产类新闻中出现次数最多的字符为3750,出现次数为152
时尚类新闻中出现次数最多的字符为3750,出现次数为102
彩票类新闻中出现次数最多的字符为4464,出现次数为59
星座类新闻中出现次数最多的字符为648,出现次数为6

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值