深入浅出数据分析-学习笔记(一)

学习目标:

  • 《深入浅出数据分析》学习笔记

目录:

  1. 数据分析引言:分解数据
  2. 实验:检验你的理论
  3. 最优化:寻找最大值
  4. 数据图形化:图形让你更精明
  5. 假设检验:假设并非如此

收获:

1. 数据分析引言:分解数据

“把大问题分解为可管理、可解决的小问题。”

  • 数据分析师需要做的是:在海量数据中洞察先机,做出更好的决策。 注意:1)除非将分析形成报表供制定决策,否则,分析将毫无用处。2)你的报告要以得到客户理解,鼓励客户以数据为基础做出明智的决策为重点。3)分析结果:体现出自己得出建议的思考过程。
  • 数据分析师的工作流程:确定->分解->评估->决策。

数据分析的流程?

  • 确定:确定问题,先了解问题是什么;
  • 分解:分解问题和数据,使其成为更小的组成部分;
  • 评估:分析大餐,对前两步了解大盘的情况做出各种结论;
  • 决策:最后把结论组合在一起,做出(建议)一个决策。

确认问题:预测提需人的想法; 数据分解:把大问题分解成颗粒级的、可管理、可解决的小问题。通过回答小问题来解决大问题。
评估组块:评估分解组块的关键是比较,从因子间的相互比较得出结论。你应该介入分析,做出自己的明确假设,并且一自己的信用为自己的结论打赌。 提出
提出建议:作为数据分析师的职责就是让自己和客户仔细研究你对数据的评估,洞察先机,从而有能力做出更好的决策。

分析会有大结局吗?数据分析肯定会得出重大问题的答案,但绝不会料事如神,即使今天无所不知,明天也会有新情况。
摘自《深入浅出数据分析》

2. 实验 检验你的结论

“随机对照实验,排除混杂因素”

问题:如何帮咖啡店提高销量?
方法与结论:观察调查数据,从品牌大人物那里了解业务信息,创建随机控制实验。实验进行了有效的比较,表明游说人们星巴克有价值比降价和维持现状更有效的提高销量。

务必使用比较法

统计与分析最基本的原理之一就是比较法,它指出,数据只有通过比较才会有意义

观察分析法充满混杂因素,随机选择相似组,进行对比实验

混杂因素是研究对象的个人差异,如店址。需要做一个实验,指出哪种策略更有效。分析过程:
1)将数据表划分为微区域;
2)将为区域随机分配给控制组和实验组;

  • 控制组:不降价一个月;
  • 实验组第1组:降价一个月;
  • 实验组第2组:游说顾客“星巴仕很有价值”一个月

3)收集结果
4)组与组进行相互比较,分析结果
摘自《深入浅出数据分析》

3. 最优化 寻找最大值

“按照分析目标校正假设。”

问题:提高利润,但要保证橡皮鸭和橡皮鱼的产量都正合适(最优化问题)。
方法与结论:首先,分别列举能控制的因素、无法控制的因素。可以控制:生产多少只橡皮鱼、多少只橡皮鸭;不能控制:橡皮鱼/橡皮鸭的利润、有多少橡胶(原材料)可以用来生产橡皮鱼/橡皮鸭,生产橡皮鱼/橡皮鸭要用多少时间。最终 使用时间、橡胶量、利润、用户购买量预估 duck 150个,fish50个,取得了很好的效果。
摘自《深入浅出数据分析》

借助目标函数发现目标

第一步: 建立目标函数:C1X1+C2X2=P(橡皮鸭的利润+橡皮鱼的利润)
C1:每个C表示一个约束条件;
X2:每个X表示一个决策变量;
P:你的目标,即期望的最大化对象。
注意:任何最优化问题都有一些约束条件和一个目标函数。
第二步: 按照分析目标校正假设
遇到问题:第一次预测销量与实际销售数据差异非常大,当前模型没有任何因素表明人们真正会购买此产品。模型描述了时间、橡胶量、利润,但得有人购买此商品,模型才会生效。即遗漏了重要因素:没有添加用户购买意愿这个特征(分析历史销售数据得到两种商品的最大销售数量,然后加入优化模型)

“一切模型都是错误的,但其中一些事有用的。”-George Box
1)尽量创建最有用的模型,让模型的不完美相对于分析目标变得无足轻重。
2)当下建立了一个效果好的模型。但是这个模型当下起作用,但是可能会突然失灵。你需要做好准备,以便在必要的时候重新构建分析方法,反复不断地进行构建正是分析师的工作。

4. 数据图形化 图形让你更精明

问题:某网站三个网页,找出来最优秀的,让销量最大化,让人们成为网站的回头客。
方法与结论:使用多元图形,绘制散点图,得到网页三的销量最高。

使用散点图探索原因

分析师喜欢用散点图发现因果关系,即一个变量影响另一个变量的关系。通常用散点图的X轴代表自变量(假想为原因的变量),Y轴代表应变量(假设为结果的变量)。

要是你手头数据庞杂,而且对于如何处理这些数据没有把握,这是只要记住你的分析目标就行了:记住目标,目光停留在和目标有关的数据上,无视其他。
让数据变美观不是数据分析师的问题。数据图形化的根本在于正确比较。

5. 假设检验 假设并非如此

“假设检验的核心是证伪”
问题:搞清楚PodPhone 发品时间
方法与结论:假设几个PodPhone备选方案,然后通过证伪法排除错误假设(通过证伪法从5个假设中排除了两个),然后再用诊断法推断那个假设最强,最终得到正确假设。
摘自《深入浅出数据分析》

借助诊断性找出否定性最小的假设

只要能够帮助你评估各种假设的相对强度,证据和数据就有诊断性。无法一一剔除所有假设,但可以判定哪个假设最强。
摘自《深入浅出数据分析》


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值