1.项目说明
对3个月的A,B两种产品的数据进行数据过程中,对分析过程:数据读取,清洗,处理,可视化。
进行数学建模分析,采用函数式编程方式算法构建
2.项目具体要求
批量读取数据,并输出以下信息 (1)数据量 (2)数据字段columns (3)输出每个文件分别有多少缺失值
批量读取数据,用均值填充缺失值数据,并完成以下计算及图表制作 (1)读取数据并用均值填充缺失值;对“日期”字段进行时间序列处理,转换成日period ,最后输出三个Dataframe文件data1,data2,data3 (2)分别计算data1,data2,data3中A,B产品的月总销量,并绘制多系列柱状图,存储在对应的图片文件夹路径 (3)分别计算A产品在每个月中哪一天超过了月度80%的销量,输出日期
读取数据并合并,做散点图观察A,B产品销量,并做回归,预测当A销量为1200时,B产品销量值 (1)读取数据删除缺失值;对“日期”字段进行时间序列处理,转换成日period ,合并三个月数据,输出data; (2)针对A产品销量和B产品销量数据做回归分析,制作散点图并存储,并预测当A销量为1200时,B产品销量值
3.实现思路:
由于有三个文件因此在读取文件数据需要获得文件夹中的文件名称,然后循环读取文件并输出相应数据,可以使用os.walk(path)方法获得路径中的信息及文件,最后返回读取文件数据的list.
对文件数据list做for循环,用函数分别处理缺失值,时间序列处理,然后将处理完的数据连接成一个dataframe表格, 然后对表格数据做柱状图。使用cunsum()方法按日期计算累计销量,来计算那一天超过月度80%销量.
使用两个函数完成数据的清洗,处理以及数据建模分析。LinearRegression()来构建回归模型,用于预测销量
4.实现过程:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
import os
def get_data (path) :
data = []
for root,dirs,files in os.walk(path):
for file