2021-07-12 电商比价项目数据清洗部分

数据清洗

一、项目背景

数据源: 爬取得到的 “ 数据表 ” 文件夹
字段说明:

属性名称 属性说明
date_日期
price_价格
title_名称
pic_图片
lowerPrice_最低价格
lowerDate_最低价格日期
current_price_当前价格
itemurl_商品链接
qushi_趋势
changPriceRemark_趋势变动

二、分析过程,拆解项目

第一步 读取数据

第二步 清洗数据

第三步 数据分析


1、提取文件夹下的爬虫文件,并合并到一张表

from datetime import datetime
import pandas as pd
import csv
import numpy as np
import os

# 设置表头
now_time = '20210710'  # 获取当前时间戳,还未实现获取时间戳功能
times = pd.date_range(end=now_time, periods=1500)  # 根据时间戳创建时间表头
times_list = [datetime.strftime(x, '%F') for x in times]  # 转为列表格式

title_other = ['title_名称', 'pic_图片','lowerPrice_最低价格',
         'lowerDate_最低价格日期', 'current_price_当前价格',
         'itemurl_商品链接']        # 设置其他表头信息
title = title_other + times_list   # 合并表头

# title_time = pd.DataFrame(columns=times)
# 时间表头形成新表
# data = pd.read_csv('C:\\Users\\juerr\\Desktop\\out2.csv', encoding='gb2312', usecols=[0, 1])
# a = data.sort_values(by="date_日期", ascending=False)
#  a = data.T
# a = a[0:30]

out = open('C:\\Users\\juerr\\Desktop\\111out4.csv', 'a', newline='')  # 打开储存文件
csv_write = csv.writer(out, dialect='excel')  # 设置格式
csv_write.writerow(title)  # 写入表头
out.close()

# 文件夹循环读取
# path = "D:/Python34/news" #文件夹目录
# files = os.listdir(path) #得到文件夹下的所有文件名称
# for file in files: #遍历文件夹

          # f = open(path+"/"+file); #打开文件
          
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值