数据分析笔记

题目与数据选取2018泰迪杯A题
在这里插入图片描述
在这里插入图片描述
任务1
我用python对数据进行缺失值统计和重复值统计,然后把缺失值和重复值去掉

import pandas as pd
import warnings
warnings.filterwarnings('ignore')#忽略提示
path = 'G:/2018泰迪杯A题/附件.csv'#文件若在目录
df = pd.read_csv(path,encoding='gbk')
print(df_1.isnull().sum())#缺失值统计
df_1=df.dropna()#缺失值删除

在这里插入图片描述

 print(df_1.duplicated().sum())#重复值统计
 df_1.drop_duplicates()#重复值删除
 df_2.to_csv('task1_1.csv')#保存
 

任务 1.2 统计每个大类商品的销售金额,将结果保存为“task1_2.csv”。

df_3=df_2.groupby('大类名称')['销售金额'].sum()
df_3.to_csv('task1_2.csv')

任务 1.3 统计每个中类商品的促销销售金额和非促销销售金额,将结果保
存为“task1_3.csv”。
发现有些非促销金额不等于单价乘数量

df_2['非促销金额'] = round(df_2['商品单价']*df_2['销售数量'],2)#算出正常的销售金额
df_5=df_2.drop(df_2[(df_2['是否促销']=='否') & (df_2['非促销金额']!=df_2['销售金额'])].index)#把不等的行去掉
df_5=df_5.drop(['非促销金额'],axis=1)#把自己添加的列去掉
#这部分应写进任务1.1,数据处理。
df_6=df_5[df_5['是否促销']=='否']
df_7=df_5[df_5['是否促销']=='是']
df_6_1=df_6.groupby('中类名称')['销售金额'].sum()
df_6_2=df_7.groupby('中类名称')['销售金额'].sum()
pd_8=pd.concat([df_6_1,df_6_2],axis=0)
pd_8.to_csv('task1_3.csv')

任务 1.4 统计生鲜类产品和一般产品的每周销售金额,将结果保存为
“task1_4.csv”。

df_6=df_5[df_5['商品类型']=='生鲜']
df_6['销售日期']=pd.to_datetime(df_6['销售日期'],format='%Y%m%d', errors='coerce')
df_6['周']=df_6['销售日期'].dt.week
df_6_1=df_6.groupby('周')['销售金额'].sum()


df_7=df_5[df_5['商品类型']=='一般产品']
df_7['销售日期']=pd.to_datetime(df_7['销售日期'],format='%Y%m%d', errors='coerce')
df_7['周']=df_7['销售日期'].dt.week
df_7_1=df_6.groupby('周')['销售金额'].sum()
pd_8=pd.concat([df_6_1,df_7_1],axis=0)
pd_8.to_csv('task1_4.csv')

任务 1.5 统计每位顾客每月的消费额及消费天数,将结果保存为
“task1_5.csv”,并在报告中列出用户编号为 0-10 的结果。

df_10_1=df_5.groupby('顾客编号')['销售金额'].sum()
df_10_2=df_5.groupby('顾客编号')['销售日期'].count()

df_11=pd.concat([df_10_1,df_10_2],axis=1)
# print(df_11)
df_11.to_csv('task1_5.csv')

任务 2.1 绘制生鲜类商品和一般商品每天销售金额的折线图,并分析比较
两类产品的销售状况。

df7=df_5[df_5['商品类型']=='一般商品']
df9=df7.groupby('销售日期',as_index=False)['销售金额'].sum()

df8=df_5[df_5['商品类型']=='生鲜']
df9_1=df8.groupby('销售日期',as_index=False)['销售金额'].sum()
# print(df9)
plt.rcParams['font.sans-serif'] = [u'SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.plot(df9['销售金额'], marker='o',label='一般商品图')
plt.plot(df9_1['销售金额'], marker='*',label='生鲜商品图')
plt.legend()
plt.show()

在这里插入图片描述
任务 2.2 按月绘制各大类商品销售金额的占比饼图,并分析其销售状况

```python
df_6=df_5[df_5['销售月份']==201501]
df_6=df_6.groupby(['大类编码','销售月份'],as_index=False)['销售金额'].sum()
plt.pie(x=df_6['销售金额'],labels=df_6['大类编码'])
plt.show()
df_7=df_5[df_5['销售月份']==201502]
df_7=df_7.groupby(['大类编码','销售月份'],as_index=False)['销售金额'].sum()
plt.pie(x=df_7['销售金额'],labels=df_7['大类编码'])
plt.show()
df_8=df_5[df_5['销售月份']==201503]
df_8=df_8.groupby(['大类编码','销售月份'],as_index=False)['销售金额'].sum()
plt.pie(x=df_8['销售金额'],labels=df_8['大类编码'])
plt.show()
df_9=df_5[df_5['销售月份']==201504]
df_9=df_9.groupby(['大类编码','销售月份'],as_index=False)['销售金额'].sum()
plt.pie(x=df_9['销售金额'],labels=df_9['大类编码'])
plt.show()

这是效果图
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
任务 2.3 绘制促销商品和非促销商品销售金额的周环比增长率柱状图。

df_6=df_5[df_5['是否促销']=='否']
df_6['销售日期']=pd.to_datetime(df_6['销售日期'],format='%Y%m%d', errors='coerce')
df_6['周'] = df_6['销售日期'].dt.week
df_6_1=df_6.groupby('周',as_index=False)['销售金额'].sum()
df_6_1['销售金额']=df_6_1['销售金额'].pct_change(periods=1)


df_7=df_5[df_5['是否促销']=='是']
df_7['销售日期']=pd.to_datetime(df_7['销售日期'],format='%Y%m%d', errors='coerce')
df_7['周'] = df_7['销售日期'].dt.week
df_7_1=df_7.groupby('周',as_index=False)['销售金额'].sum()
df_7_1['销售金额']=df_7_1['销售金额'].pct_change(periods=1)
print(df_7_1)
plt.bar(df_6_1['周'], df_6_1['销售金额'])
plt.bar(df_7_1['周'], df_7_1['销售金额'])
plt.show()

在这里插入图片描述

  • 4
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
R语言是一种功能强大的开源编程语言和环境,广泛应用于数据分析统计建模。入门R语言的过程,我可以分享一些我自己的笔记和经验。 首先,入门R语言需要准备好安装R语言和RStudio的环境。RStudio是R语言的一个集成开发环境,提供了更加友好的界面和便捷的操作。安装完毕后,我们可以打开RStudio开始学习。 接下来,建议通过在线教程、视频教程或者书籍来学习R语言的基础知识和语法。了解R语言的数据结构,如向量、矩阵、数据帧等,掌握R语言的基本运算和函数操作等非常重要。 在学习过程中,我发现通过实际操作来巩固知识是非常有效的。可以尝试使用R语言处理一些简单的数据集,如读取数据、数据清洗和数据可视化等。这样可以更好地理解R语言的功能和应用。 另外,熟悉R语言的常用包和函数也是非常重要的。R语言有很多强大的数据分析包,如ggplot2、dplyr和tidyr等。通过学习它们的基本用法和常见函数的操作,可以更好地进行数据分析统计建模。 同时,我也建议多参与R语言的相关社区和论坛,与其他R语言爱好者交流和分享经验。这不仅可以解决遇到的问题,还能学习到更多实际案例和应用技巧。 最后,持续学习和实践是掌握R语言的关键。不断地阅读学习材料、参与项目和练习编程,都是提高R语言技能的有效途径。 希望以上简要的笔记对入门R语言和数据分析有所帮助。R语言具有强大的数据分析能力,相信通过不断学习和实践,你可以在数据分析领域取得更好的成果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值