2021-07-12 电商比价项目数据清洗部分

最新推荐文章于 2024-07-09 15:58:38 发布

Juerr

最新推荐文章于 2024-07-09 15:58:38 发布

阅读量179

点赞数

分类专栏：爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/weixin_45404425/article/details/118684717

版权

数据清洗

一、项目背景

数据源： 爬取得到的 “ 数据表 ” 文件夹
字段说明：

属性名称	属性说明
date_日期	–
price_价格	–
title_名称	–
pic_图片	–
lowerPrice_最低价格	–
lowerDate_最低价格日期	–
current_price_当前价格	–
itemurl_商品链接	–
qushi_趋势	–
changPriceRemark_趋势变动	–

二、分析过程，拆解项目

第一步读取数据

第二步清洗数据

第三步数据分析

1、提取文件夹下的爬虫文件，并合并到一张表

from datetime import datetime
import pandas as pd
import csv
import numpy as np
import os

# 设置表头
now_time = '20210710'  # 获取当前时间戳，还未实现获取时间戳功能
times = pd.date_range(end=now_time, periods=1500)  # 根据时间戳创建时间表头
times_list = [datetime.strftime(x, '%F') for x in times]  # 转为列表格式

title_other = ['title_名称', 'pic_图片','lowerPrice_最低价格',
         'lowerDate_最低价格日期', 'current_price_当前价格',
         'itemurl_商品链接']        # 设置其他表头信息
title = title_other + times_list   # 合并表头

# title_time = pd.DataFrame(columns=times)
# 时间表头形成新表
# data = pd.read_csv('C:\\Users\\juerr\\Desktop\\out2.csv', encoding='gb2312', usecols=[0, 1])
# a = data.sort_values(by="date_日期", ascending=False)
#  a = data.T
# a = a[0:30]

out = open('C:\\Users\\juerr\\Desktop\\111out4.csv', 'a', newline='')  # 打开储存文件
csv_write = csv.writer(out, dialect='excel')  # 设置格式
csv_write.writerow(title)  # 写入表头
out.close()

# 文件夹循环读取
# path = "D:/Python34/news" #文件夹目录
# files = os.listdir(path) #得到文件夹下的所有文件名称
# for file in files: #遍历文件夹

          # f = open(path+"/"+file); #打开文件

最低0.47元/天解锁文章

Juerr

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-07-12 电商比价项目数据清洗部分

数据清洗一、项目背景数据源：爬取得到的 “ 数据表 ” 文件夹字段说明：属性名称属性说明date_日期–price_价格–title_名称–pic_图片–lowerPrice_最低价格–lowerDate_最低价格日期–current_price_当前价格–itemurl_商品链接–qushi_趋势–changPriceRemark_趋势变动–二、分析过程，拆解项目第一步读取数据第二步
复制链接

扫一扫