数据清洗
一、项目背景
数据源: 爬取得到的 “ 数据表 ” 文件夹
字段说明:
属性名称 | 属性说明 |
---|---|
date_日期 | – |
price_价格 | – |
title_名称 | – |
pic_图片 | – |
lowerPrice_最低价格 | – |
lowerDate_最低价格日期 | – |
current_price_当前价格 | – |
itemurl_商品链接 | – |
qushi_趋势 | – |
changPriceRemark_趋势变动 | – |
二、分析过程,拆解项目
第一步 读取数据
第二步 清洗数据
第三步 数据分析
1、提取文件夹下的爬虫文件,并合并到一张表
from datetime import datetime
import pandas as pd
import csv
import numpy as np
import os
# 设置表头
now_time = '20210710' # 获取当前时间戳,还未实现获取时间戳功能
times = pd.date_range(end=now_time, periods=1500) # 根据时间戳创建时间表头
times_list = [datetime.strftime(x, '%F') for x in times] # 转为列表格式
title_other = ['title_名称', 'pic_图片','lowerPrice_最低价格',
'lowerDate_最低价格日期', 'current_price_当前价格',
'itemurl_商品链接'] # 设置其他表头信息
title = title_other + times_list # 合并表头
# title_time = pd.DataFrame(columns=times)
# 时间表头形成新表
# data = pd.read_csv('C:\\Users\\juerr\\Desktop\\out2.csv', encoding='gb2312', usecols=[0, 1])
# a = data.sort_values(by="date_日期", ascending=False)
# a = data.T
# a = a[0:30]
out = open('C:\\Users\\juerr\\Desktop\\111out4.csv', 'a', newline='') # 打开储存文件
csv_write = csv.writer(out, dialect='excel') # 设置格式
csv_write.writerow(title) # 写入表头
out.close()
# 文件夹循环读取
# path = "D:/Python34/news" #文件夹目录
# files = os.listdir(path) #得到文件夹下的所有文件名称
# for file in files: #遍历文件夹
# f = open(path+"/"+file); #打开文件