目前的数据集是每一行sales对应一条时间序列,这样一些外部变量,例如价格,节假日,甚至未来可能遇到的促销、人流量数据是无法直接加在上面的,所以我们需要将这种wide的宽表,变成长表,
每一行代表的是某一家店某一个商品某一天的具体信息,包括销量,价格,节假日,促销等等。
下面是一个pandas melt函数convert wide to long的例子
pandas.melt 使用参数
pandas.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name=‘value’, col_level=None)
参数解释:
- frame: 要处理的数据集。
- id_vars: 不需要被转换的列名。
- value_vars: 需要转换的列名,如果剩下的列全部都要转换,就不用写了。
- var_name 和 value_name 是自定义设置对应的列名。
- col_level: 如果列是 MultiIndex,则使用此级别。
例子:
>>>d = {'col1': ['a','a','a','b','b'],
'col2': [2,2,2,2,2],
'col3':['c','c','c','d','d']}
>>>df = pd.DataFrame(data=d)
>>>df
1、设置 id_vars=[‘col2’] ,则不需要转换的列是 col2 。所以 col1 跟 col3 合并成了一列。
>>>pd.melt(df, id_vars=['col2'])
2、设置 id_vars = [‘col2’], value_vars = [‘col1’] , 则不需要转换的列是 col2 。需要转换的是 col1 列 ,拿 col3 就不受影响,不展示了。
pd.melt(df, id_vars=['col2'], value_vars=['col1'])
3、对修改后的列设置新列名。
pd.melt(df, id_vars=['col2'], value_vars=['col1'], var_name='hi', value_name='hello')
参考链接
[1] Pandas 的melt的使用 2018.4
[2] pandas行转列,列转行操作 2020.4