每逢节日送礼，不懂送女朋友什么牌子的口红？没关系！Python 数据分析告诉你。

本文链接：https://blog.csdn.net/z099164/article/details/134662345

本文通过Python爬虫获取京东口红数据，进行了价格区间、销量分布、热销口红和店铺分析，展示了价格与销量的关系，强调了数据预处理在数据分析中的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、案例说明

1、案例背景

节日快到了，不懂送女朋友什么牌子的口红？没关系！Python 数据分析告诉你。

我们爬取了京东商城口红近 4000 条口红商品信息，并对这些口红数据进行分析，让大家买口红给女朋友时有个选择的参考，从如下几个方面去分析：

1、哪些价格区间的口红卖的最好？
2、口红销量分布情况。
3、销量前10的口红有哪些？
4、销量前10的店铺。
5、商品价格和销量的关系。

2、任务说明

通过 Python 爬虫爬取了京东上所有口红铺的数据集 jd_data.csv。

我们希望通过该数据集，针对不同的口红品牌和店铺进行统计与分析，从而能够解开我们上述疑问。

3、数据字段的说明

字段含义图：

二、数据预处理

数据清洗

1、首先从csv文件中导入数据

import pandas as pd 
import matplotlib.pyplot as plt 

#读取数据
dataframe = pd.read_csv('jd_data.csv',encoding = 'gb18030')#这里不能使用utf-8
print(dataframe.shape)

查看下有多少行、列数据：
(3816, 6)
共有3816行，6列（上面有这六个字段说明）

2、缺失值处理

data = dataframe.dropna(how='any')
data.head()
print(data.shape)

(3610, 6)
从这里可以看出还是有些缺失值的

对于缺失值的处理主要有两种方法：

删除

填充：分为均值、中位数、众数、附近值进行填充，还有牛顿差值法等等。
这里偷一下懒，使用比较简便的删除的方式处理缺失值，毕竟缺失的不是很多。

# inplace=True表示原地修改数据集  
data.dropna(axis=0, inplace=True)   
  
# 对删除后缺失值后的数据集，再次进行缺失值统计  
data.isnull().sum(axis=1)

数据转换

1、将评论的+和万字修改

def dealComment(comm_colum):
    num = str(comm_colum).split('+')[0]
    if '万' in num:
        if '.' in num :
            num = num.replace('.','').replace('万','000')
        else:
            num = num.replace('.','').replace('万','0000')
    return num
dataframe['comment'] = dataframe['comment'].apply(lambda x: dealComment_num(x))
#转换成int类型
dataframe['comment'] = dataframe.comment.astype('int') 
data = dataframe.drop('comment',axis = 1)
print(data.head(10))

经过处理完后的数据：

数据预处理是数据分析的一项重要任务，能否得到准确的数据分析结果离不开数据预处理，下面我们开始对口红数据进行分析吧！

三、数据分析

京东上面商品没有销量这一信息，我们姑且将评论数当成是销量。

本次项目中取用了 name、price、comment、shop_name 、shop_type 这几个字段的信息。

分别是商品标题名称、价格、评论数、店铺名、店铺类型来进行分析。

1、口红价格分布区间

import pandas as pd 
import matplotlib.pyplot as plt

#读取数据
data = pd.read_csv('jd_data.csv',encoding = 'gb18030')

plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.figure(figsize=(10,8))
price = data[data['price'] < 1000]
plt.hist(price['price'], bins=10, color='brown')
plt.xlabel('价格')
plt.ylabel('商品数量')
plt.title('价格商品分布')
plt.show()

结果如下：

通过上图，可以很清楚看到：

口红的价格绝大多数在0-500元的区间之内，但是也有口红的售价达到了1000元，哈哈努力挣钱吧。
其中200-300元价位的数量非常的高，超过了1200，而且价格超过300元的有明显的减少趋势，哈哈价格才是王道。

2、销量分布情况

由于没有爬取到销量信息，所以将评论数当成销量

#销量分析
sale_num = data[data['comment'] > 100]
plt.figure(figsize=(10,8))
#print(len(sale_num)/len(data))  #查看下大致的区间分布
plt.hist(sale_num['comment'], bins=20, color='blue')
plt.xlabel('销量')
plt.ylabel('数量')
plt.title('销量情况')
plt.show()

结果如下：

通过直方图我们可以看到：

销售量基本是在20万以内。
销售量在10万以内的占了绝大多数
还有极个别的店铺销量竟然超过了100万

3、销售前10的口红

#销售前10的口红
#抽取商品标题的简略信息
def get_title(item):
    title = item.split(' ')[0]
    return title

data['small_name'] = data['name'].apply(lambda x: get_title(x)) 
data1 = data.drop('name',axis = 1)
top10Lipstick = data1.sort_values('comment',ascending=False)
print(top10Lipstick.head(10))
title = top10Lipstick['small_name'][:10]
sale_num = top10Lipstick['comment'][:10]
plt.figure(figsize=(10,8),dpi = 80) 
plt.bar(range(10),sale_num,width=0.6,color='red')
plt.xticks(range(10),title,rotation=45)
#plt.ylim((9,9.7))   #设置y轴坐标
plt.ylabel('数量') 
plt.xlabel('标题')  
plt.title('销量前10的糖果')
for x,y in enumerate(list(sale_num)):   
    plt.text(x,float(y)+0.01,y,ha='center')

结果如下：

可以发现，排名前三位的是：

京东国际魅可（MAC)经典唇膏子弹头口红3g Chili 小辣椒色

商品图片

【520礼物】中国风口红套装礼盒女颐和园同款唇膏唇釉学生非小样彩妆口红套装（6支）

商品图片

【520礼物】迪奥（Dior）烈艳蓝金唇膏-哑光999# 3.5g 传奇红（口红正红色传奇红赠精美礼盒）

商品图片

4、销量前10的店铺

分析完销量前10的商品后，我们再来看下销量前10的店铺：

代码如下：

#销量前10的店铺
top_shop = data.groupby('shop_name')['comment'].sum().sort_values(ascending=False)[:10]
print(top_shop.head(10))

plt.figure(figsize=(10,8),dpi = 80)
top_shop.plot(kind = 'bar',color='red',width= 0.6)
plt.ylabel('数量')
plt.xlabel('店铺名')  
plt.title('销量前10的店铺') 
plt.xticks(rotation=45)
for x,y in enumerate(list(top_shop)): 
    plt.text(x,float(y)+0.1,y,ha='center')
plt.show()

结果如下：

由上图可以看到：

MAC魅可海外自营专区占据第一名，达 1365308 的销售量，而且基本前10的店铺销量都在5万以上。
前三名都基本达到了130多万
前10名中有5个是京东自营

5、商品价格和销量的关系

我们采用散点图的方式，看看价格和销量的分布关系

plt.figure(figsize=(10,8))
plt.scatter(data['price'],data['comment'], color='blue')
plt.xlabel('价格')
plt.ylabel('销量')
plt.title('价格、销量的散点分布')
plt.show()

结果如下：