问题
最近用python爬取了淘宝网的数据,部分数据展示如下:
为了购买到性价比最高的螺蛳粉,需要综合购买量和价格进行分析
购买变量的数据清洗
- ‘人付款’需要去掉
- 7.5万+需要转换为75000
- 9500+需要去掉+
解题思路
- ‘人付款’可以用空格替换掉
- 用正则表达式取出数字
- 数字处理用if语句判断数据单位是否带‘万’处理
代码
#载入各种包
import pandas as pd
import re
#打开数据集
data = pd.read_excel('F:/参考文件/python/python100/luoshifen.xls')
#查看数据
# print(data.shape) #数据集行和列
# print(data.columns) #列名
# print(data.head()) #开始五行
# print('=================')
# print(data.tail()) #结尾五行
# print(data.describe()) #度量的描述
#空值判断
# data.isnull().any() #任一列有空值则为真
#
# total=data.isnull().sum().sort_values(ascending=False)
# print(total)
#数据清洗
# 先转化为列表