Python 数据分析微专业课程--项目04 多场景下的算法构建

1.项目说明

对3个月的A,B两种产品的数据进行数据过程中,对分析过程:数据读取,清洗,处理,可视化。
进行数学建模分析,采用函数式编程方式算法构建 

2.项目具体要求

  1. 批量读取数据,并输出以下信息
    (1)数据量
    (2)数据字段columns
    (3)输出每个文件分别有多少缺失值
  2. 批量读取数据,用均值填充缺失值数据,并完成以下计算及图表制作
    (1)读取数据并用均值填充缺失值;对“日期”字段进行时间序列处理,转换成日period ,最后输出三个Dataframe文件data1,data2,data3
    (2)分别计算data1,data2,data3中A,B产品的月总销量,并绘制多系列柱状图,存储在对应的图片文件夹路径
    (3)分别计算A产品在每个月中哪一天超过了月度80%的销量,输出日期
  3. 读取数据并合并,做散点图观察A,B产品销量,并做回归,预测当A销量为1200时,B产品销量值
    (1)读取数据删除缺失值;对“日期”字段进行时间序列处理,转换成日period ,合并三个月数据,输出data;
    (2)针对A产品销量和B产品销量数据做回归分析,制作散点图并存储,并预测当A销量为1200时,B产品销量值

3.实现思路:

  1. 由于有三个文件因此在读取文件数据需要获得文件夹中的文件名称,然后循环读取文件并输出相应数据,可以使用os.walk(path)方法获得路径中的信息及文件,最后返回读取文件数据的list.
  2. 对文件数据list做for循环,用函数分别处理缺失值,时间序列处理,然后将处理完的数据连接成一个dataframe表格,
    然后对表格数据做柱状图。使用cunsum()方法按日期计算累计销量,来计算那一天超过月度80%销量.
  3. 使用两个函数完成数据的清洗,处理以及数据建模分析。LinearRegression()来构建回归模型,用于预测销量

4.实现过程:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
import os

def get_data(path):
    data = []
    for root,dirs,files in os.walk(path):  #返回路径中的信息及文件,使用for循环读取生成器数据
        for file 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值