Day One——利用pandas可视化处理数据
第一、二部分数据catering_sale.xls
第三部分数据catering_dish_profit.xls
第四部分数据catering_sale_all.xls
第一部分——可视化数据,箱线图。
对应函数programmer_1
数据有两列,日期和销量。先通过可视化的手段将其展示。
这里使用箱线图进行展示。关于箱线图的定义,请查阅百度百科
步骤:
读取数据
将数据转换为箱线图数据。使用pandas函数
boxplot
,指定返回类型为dict
字典提取箱线图的数据。提取
key
为fliers
(翻译为传单?)将提取的数据可视化。添加注释,使用函数
annotate
,为了使注释不挡住图线,特地处理了注释位置
画出来的箱线图如下
第二部分——提取数据,极差(range)、方差(var)、四分位差(quartile deviation)
对应函数programmer_2
相关名词可查阅博客, 统计学中常用专用名词中英对照
步骤:
读取数据
筛选数据
在原有的基础上拓展数据
- 极差=最大值-最小值
- 方差=标准差/平均值
- 四分位差=第三四分位数-第一四分位数
输出如下:
count