Python 数据分析微专业课程--项目04 多场景下的算法构建

最新推荐文章于 2021-07-09 17:18:28 发布

zongzi009

最新推荐文章于 2021-07-09 17:18:28 发布

阅读量685

点赞数

分类专栏：数据分析

本文链接：https://blog.csdn.net/zongzi009/article/details/82319677

版权

1.项目说明

对3个月的A,B两种产品的数据进行数据过程中，对分析过程：数据读取，清洗，处理，可视化。
进行数学建模分析，采用函数式编程方式算法构建

2.项目具体要求

批量读取数据，并输出以下信息
(1)数据量
(2)数据字段columns
(3)输出每个文件分别有多少缺失值
批量读取数据，用均值填充缺失值数据，并完成以下计算及图表制作
(1)读取数据并用均值填充缺失值；对“日期”字段进行时间序列处理，转换成日period ，最后输出三个Dataframe文件data1,data2,data3
(2)分别计算data1，data2，data3中A,B产品的月总销量，并绘制多系列柱状图，存储在对应的图片文件夹路径
(3)分别计算A产品在每个月中哪一天超过了月度80%的销量，输出日期
读取数据并合并，做散点图观察A,B产品销量，并做回归，预测当A销量为1200时，B产品销量值
(1)读取数据删除缺失值；对“日期”字段进行时间序列处理，转换成日period ，合并三个月数据，输出data；
(2)针对A产品销量和B产品销量数据做回归分析，制作散点图并存储，并预测当A销量为1200时，B产品销量值

3.实现思路：

由于有三个文件因此在读取文件数据需要获得文件夹中的文件名称，然后循环读取文件并输出相应数据，可以使用os.walk(path)方法获得路径中的信息及文件，最后返回读取文件数据的list.
对文件数据list做for循环，用函数分别处理缺失值，时间序列处理，然后将处理完的数据连接成一个dataframe表格，
然后对表格数据做柱状图。使用cunsum()方法按日期计算累计销量，来计算那一天超过月度80%销量.
使用两个函数完成数据的清洗，处理以及数据建模分析。LinearRegression()来构建回归模型，用于预测销量

4.实现过程：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
import os

def get_data(path):
    data = []
    for root,dirs,files in os.walk(path):  #返回路径中的信息及文件，使用for循环读取生成器数据
        for file

最低0.47元/天解锁文章

zongzi009

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Python 数据分析微专业课程--项目04 多场景下的算法构建

1.项目说明对3个月的A,B两种产品的数据进行数据过程中，对分析过程：数据读取，清洗，处理，可视化。进行数学建模分析，采用函数式编程方式算法构建 2.项目具体要求批量读取数据，并输出以下信息 (1)数据量 (2)数据字段columns (3)输出每个文件分别有多少缺失值批量读取数据，用均值填充缺失值数据，并完成以下计算及图表制作 (1)读取数据并用均值填充缺失...
复制链接

扫一扫