用过 Excel 的数据分析师,对 Excel 的『条件选择』与『格式呈现』功能大都印象深刻。下方动图演示了 Excel『数据选择&底色填充高亮』功能。如果我们需要『选择大于100的所有产品取值并对单元格填充红色』,直接如下图所示,在『条件格式』中选择『突出显示单元格规则』即可进行设置。
习惯用 Python 进行数据分析挖掘的我们,是否可以完成相同的高级显示呢?答案是,可以的!!
在本文中 ShowMeAI 将带大家在 Pandas Dataframe 中完成多条件数据选择及各种呈现样式的设置。
💡 案例&背景
我们从一个电商销售的案例背景讲起,下图的数据透视表(pandas pivot table)显示了 2016 年至 2022 年不同产品的总销售额。数据可以在ShowMeAI的百度网盘获取,数据读取与处理代码如下
import pandas as pd
data = pd.read_excel('data.xlsx')
df_pivoted = pd.pivot_table(data, index='Year')
💰 你能找出 2016 年最畅销的产品吗?
- 你可能很快能找到答案 Product_B,总销售额为 169,但我们仅通过透视表去定位结果非常不方便。
- Pandas 可以很便捷地用条件语句去找到结果,但在原表对应还是不容易。
💰 如果我们为每年最畅销的产品上色呢,如下图所示用底色突出显示之后,回答上面的问题是不是容易多了?
是不是就轻而易举的找到了呢