数据分析思维(流程)

界定问题(W-W-H)

1.What类问题?(发生了什么)
What类问题通常围绕企业所关注的重点指标:
①观测这些指标的当前值;
②监控他们本周、本月、本年的表现;
③比较这类数据与上月、上个季度或者去年同期的数据。
2.Why类问题?(为什么会发生)
重点是关注业务现状背后的原因。
3.How类问题?(我们能做什么)
目的是识别高价值用户,实施针对性营销方案。
(用户画像)定义高价值顾客,并从数据中识别高价值顾客的具体特征:
①首先,与关键的业务人员一同参与,识别能用数据驱动业务发展的关键环节。
②其次,根据业务目标找到所有可能解决的技术方法与所需数据,选择分析计划。
③明确衡量分析项目成功的标准。

问题解决方法交付方式
What类问题从数据库中抽取、拼接、聚合为主Excel/Tableau可视化报表
Why类问题从数据中找出洞见,在what类问题呈现的报表基础上做简单的数据探索和分析PPT/文档撰写报告
How类问题提出对应的分析模型解决模型结论和实施方案

数据的收集与评估(分析基础)

目的是将对企业有用的数据存储到数据库中。
1.对于关系型数据库,其是由多个二维数据表所组成的数据库(MySQL),收集数据的方式为数据集的拼接、聚合与抽取。
2.评估整体数据状况(在收集数据前,评估各个数据源的完整性和及时性)。
①完整性检查:原始数据存在与否;和已知业务常识之间是否有明显差距。
②及时性检查:确保各数据源都反应的是相同时间的窗口数据。这类数据的特点是:每月更新,与自身企业系统每天更新的频率有很大差异。

数据清洗与整理(核心)

1.数据清洗(将有问题的数据排除出去)
1>清洗(最耗时间和精力,涉及对数据缺失、异常和其他问题的处理)
①缺失:
Ⅰ.明确缺失信息来自于哪个数据表?是否在原表中缺失?(自身)
Ⅱ.若原表中缺失信息,是否在收集过程中有疏漏?(业务)
Ⅲ.缺失信息的比例有多少?(缺失比例>90%,剔除此数据;缺失比例较小,可采用均值、中位数和回归方式填充)。
②异常:
Ⅰ.数据有明显违背常识的错误
Ⅱ.数据的离群值(outliner):与其他数据差异较大,会对数据分析结果产生影响的观测值。
步骤:检查同一客户原表是否是同样的数值——>检查此数据是如何收集而来的——>再从技术角度评估是否为离群值,对离群值进行核实和处理。
2.数据整理
①对数据进行统一的格式化(规范化的标准)和命名规则处理。
②对某些信息进行重新编码(帮助挖掘新信息)以满足后续分析需求。

数据探索与可视化

探索性数据分析(EDA)
①单个数据指标-----多个数据指标(相关关系)-----多个数据指标的衍生变量(定义新指标,做预测):例如在一般的数据库中,只会保存用户订单所产生的时间,而预测因素为:上次购买商品距今的时间,这就需要用已有数据去创造衍生变量,这会使后续的分析模型更加准确。
②确定好所要分析的数据指标后,用数据可视化图表呈现数据分析的结果。

数据分析模型

①能将数据中的洞见转变为商业决策的关键步骤;是所有数据分析工作中最终产生价值的环节。
②模型要解决的问题:客户分群和预测分类
③常用模型:聚类分析、逻辑回归、决策树、随机森林等

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值