用python清洗淘宝网的爬虫数据

问题

最近用python爬取了淘宝网的数据,部分数据展示如下:
现在觉得螺蛳粉简直太美味了为了购买到性价比最高的螺蛳粉,需要综合购买量和价格进行分析
购买变量的数据清洗

  1. ‘人付款’需要去掉
  2. 7.5万+需要转换为75000
  3. 9500+需要去掉+

解题思路

  1. ‘人付款’可以用空格替换掉
  2. 用正则表达式取出数字
  3. 数字处理用if语句判断数据单位是否带‘万’处理

代码

#载入各种包
import pandas as pd
import re


#打开数据集
data = pd.read_excel('F:/参考文件/python/python100/luoshifen.xls')

#查看数据

# print(data.shape)       #数据集行和列
# print(data.columns)     #列名
# print(data.head())      #开始五行
# print('=================')
# print(data.tail())      #结尾五行
# print(data.describe())  #度量的描述

#空值判断
# data.isnull().any()        #任一列有空值则为真
#
# total=data.isnull().sum().sort_values(ascending=False)
# print(total)

#数据清洗

# 先转化为列表
  • 4
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值