利用pandas对womenclothing 的列进行处理与可视化

最新推荐文章于 2022-11-05 13:02:27 发布

tsing_9521

最新推荐文章于 2022-11-05 13:02:27 发布

阅读量149

点赞数

分类专栏： python 入门数据分析统计学文章标签： pandas 数据分析

本文链接：https://blog.csdn.net/weixin_44595372/article/details/89136079

版权

本文详细介绍了如何运用pandas库对womenclothing数据集进行预处理，包括数据清洗、列操作及数据分析。通过实例展示了如何筛选、合并和重塑数据，同时利用可视化工具对结果进行直观展示，帮助理解女性服装消费的模式和趋势。

摘要由CSDN通过智能技术生成

import pandas as pd
import matplotlib.pyplot as plt
from pylab import *

#设置显示行数和列数
pd.set_option('display.max_rows',25000)
pd.set_option('display.max_columns',30)

#data=pd.read_csv('wc.csv')
#查看数据基本情况
#print(data.describe())

#查看各列指标数据情况

data=pd.read_csv('wc.csv')

#对sku列做聚类分析
sku=data.sku.count()
#查看各sku的销售量
groupedsku=data.groupby('sku').sku.sum().sort_values(ascending=False)
def func(x):
    if x>100:
        return x
    else:
        None
        
#print(groupedsku)
#print(groupedsku.describe()) #查看sku销售量的总体情况（平均值，最大值，最小值等）
        
#print(groupedsku.count())
#print(groupedsku.sum())
#print(groupedsku.apply(func).dropna().sum()) #查看销量在100以上的sku的总销量
#print(groupedsku.apply(func).dropna().count())#查看销量在100以上的sku的个数

#print(groupedsku.apply(func).dropna().count()/groupedsku.count()) #查看销量在100以上的sku的个数在总sku中的占比

#print(groupedsku.apply(func).dropna().sum()/groupedsku.sum())
#查看销量在1