啥是数据处理?
- 数据是指以某种方式收集反映客观事实的依据的信息。
- 处理是借助工具解决问题的流程。
- 数据处理是指运用工具加工数据来解决问题的流程。
啥是数据处理流程?
需求分析
- 需求的理解应从“需”和“求”两字入手。需的本义是等待,求的本义恳请,引申为设法得到。
- 需求是指那些有所期待并要想方设法得到的客观事物。
- 分析是指将研究对象按规则区分后,说明概要,解释联系。
- 需求分析是指将需求按不同的性质分类后,剖析内部联系并设计解决方案的过程。
数据收集
- “巧妇难为无米之炊”,数据就是数据分析师的“米”。没有数据,就没有发言权。
- 明确需求是利用客观事实数据化能力将其解构为维度和指标。
- 确定维度和指标的数据收集模式,主要分为静态模式和动态模式。
- 静态模式获取事物的瞬时状态;动态模式获取某段时间内的连续状态。
数据清洗
- 所收集的数据由于主观或客观原因无法直接用于解决需求问题,因此必须进行清洗操作。
- 数据无论如何的“脏乱差”,总是能够找到一些价值的。There is a warning: “Garbage in, Garbage out!”
- 数据清洗是指利用数据异常识别能力将数据按统一的业务口径整理的过程。
- 数据清洗常见处理:数据异常处理、数据口径统一、无效数据过滤、数据类型转换等。
数据编程
- 清洗后的数据如同清理过大石块的沙堆,虽然整齐但是仍无法解决需求问题。
- 数据编程是指利用数据处理工具通过分组、聚合、排序等方式操作数据,描述和解释客观事实的过程。
- 数据编程的目的:以数据结果分别描述客观事物状态、解释客观事物状态、预测客观事物状态。
数据展现
- 数据展现,即数据可视化。数据可视化是将数据以表格或图表的形式展现的过程。
- 字不如表,表不如图。
- 数据可视化图表设计内容主要包括:图表类型、图表元素、图表样式以及数据配置。
- 图表类型:柱形图、折线图、饼状图、散点图、热力图和树形图等。
- 图表元素:图表标题、轴标题、轴标签、系列标签和图例等。
- 图表样式:颜色、形状、大小、方向。
- 数据配置:一维数据列、二维数据组。
数据报告
- 撰写数据分析报告本质上是讲数据故事的过程。
- 故事引人入胜的关键在于洞察人心,面对不同的需求者,所强调的重点不同。
- 数据分析报告的载体:Word或PPT,交互式BI系统。
- 数据分析报告的结构:
- Word:主题封面、精炼结论、故事目录、故事背景、需求分析、解决过程、归纳总结。
- PPT:主题封面、故事背景、抛出问题、描述需求、解构需求、产生效果、未来预测。
- BI系统:突出主题、现状描述、解构指标、联动钻取、分层小结、跟踪监控、结论汇总。
- 数据分析报告抓主题、分层次、重结论、显价值。