什么是好的数据分析?化繁为简的力量

d360212e1782af59c4ae8f3f787ecd48.png

编 辑:彭文华

来 源:大数据架构师(ID:bigdata_arch)

彭友们好,我是你的老彭友。今天在群里看到一个表,真的是太棒了!拿出来分享给大家:

1cc76b97fd8f7232fdb1550d688f52b5.png

有些时候,想说明一个真理,浪费口舌说那么多都没用,看这个表格就一目了然了。

其实这张图也是我一直说的,数据说话的典型。很可惜,我没找到这个表的来源,要不我得好好感谢感谢作者。

37d44c9b5f9bfc48386ec1cd06c8fe4d.png

连续与离散

其实数据分析的奥义都在上面那个表里展现的淋漓尽致了。甚至把数据的奥义都展现清楚了。

在《华为数据之道》里有一张图我特别喜欢,就是这个:

f061d1233a4135c87359b2258ad16a31.png

现实世界通过IT系统,以业务过程和业务结果数据的形态,映射成了一个数字世界。

现实世界是连续的,我们把业务过程数据和业务结果数据进行量化后,其结果就必然也是连续的。

对了,这里需要给一下连续和离散的定义:

离散变量是指变量值可以按一定顺序一一列举,其数值是在一定区间内是固定的;

连续变量是指在一定区间内可以任意取值的变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。

连续的现实世界量化之后,理解起来比较费劲。不像现实世界,可以用“手感”、“肌肉记忆”、“唯手熟尔”等说不清道不明的方法搞定高难度的事情。

在数据世界,一切都得量化才可以。在现实世界100%投篮命中,可以长期练习。

但是想要用数据思维实现100%投篮命中,那不要太简单了。只需要计算合适的角度,用合适的力量投掷就行。机器人投篮大赛基本上都是100%命中。

也有脑洞特别清秀的,比如Shane Wighton的程序员大佬,做了一个100%命中的篮筐。。。

832df7ee0a357cebbbac396cc8886e7f.gif

你无论从哪个位置投篮都能准确地掉进篮筐里。

但是我们的生理结构决定人脑天生会偷懒,CPU高速运转可不是什么好事。所以,我们看到连续的数据第一反应就是怎么把他们分开。

理解一个有限的、离散结果集,比理解一个无限的、连续的数据集要容易的多。而且最好是足够离散,足够有限,最好是就只有两个选择。比如:

这个人是好人 VS 这个人是坏人;

这个东西好吃 VS 这个东西难吃;

爱我 VS 不爱我;

开车比我快的都是SB VS 开车比我慢的都是菜鸟。

这就是为什么最容易火的事情通常都是挑起双方矛盾的话题,因为最容易理解,也方便别人站队。

一旦某件事情出现反转,或者反反转,讨论起来就很费劲,话题自然就延续不下去了。

8160c3440607a98f8b4076796ccb246f.png

对数据分析的启示

讨论这些有什么用呢?

很简单,这些有用,有大用!经济学家、社会学家一直都在寻找类似的有足够区分度的样本集。一边是好的,一边是坏的。这样结论就非常非常明显了。

我们再来看看这张表:

ffddf636002d8ca93830212158b8d621.png

脑洞太清秀了有没有?

研究一个病的治愈效果,在社会群体一般怎么做?双盲测试、安慰剂实验呗。

但是这个分析的脑洞就很惊奇了。他把高血压、糖尿病两种病的分析人群选在了服刑人群和社会人群之间做比较。

服刑人群最大的特点是什么?极度的规律和可控性。

社会人群则反之,按时服药简直是要了命了。我感觉我自己从来没有严格遵医嘱吃过药。不是忘吃了,就是间隔时间太长(短)了b625c8d00d6a474e3f76e64c5c3e2c04.png

1fe3eea7fab54c0b55c553749bc696be.png

这个人群选的,简直是神来之笔。至于数据,那都是统计之后的结果,不要太简单了。

我之前看过一个二战小故事,差点没把我笑死。说的是一个小岛上有土著居民,没见过高科技。美国大兵在小岛上建了军事基地,运了一队兵在那边。

土著人觉得很奇怪:这帮人天天就在那里跑来跑去,也没见出去打猎,为什么会有大鸟过来给他们投放食物?

等美国大兵撤走了之后,这帮土著人也不打猎去了,天天在机场跑操,期待神明派神鸟(飞机)赐予他们食物。

我只是把这个当笑话看。但是社会学家就像是找到了宝贝一样,因为这个可以用来区分“神创世”和“人创神”两种论调。而且这个区分度太大了好么?

5062df0b25852abc1bddff34765fd19a.png

数据重要还是思路重要

好,到这里,基本上就能解答这个问题了:“数据分析,到底是数据重要,还是分析思路重要”?

数据当然重要。数据是现实世界投射到数字世界的形式。但是,数据何其多也!

现实世界是连续的,投射过去的数据也是连续的,人脑理解起来太费劲了!

想要得到广泛的认同,就必须降维,把连续变成离散,区分度越高越好,离散的值越少越好,最好就是二项分布,是/否,好/坏,讨厌/喜欢,爱/恨。

不要什么中间态,不要什么模棱两可,不要什么不置可否,这些都是影响快速判断的搅屎棍!

所以你明白为什么我发言总不太受欢迎了吧?因为我发表言论的时候总喜欢是喜欢找第三选项。我觉二项分布不是世界本来的样子,世界应该是连续的,而不是离散的。

可是,我忘记了让人接受第三选项有多难...

更多精彩:

如何搭建一个数据分析体系

企业级数据分析体系的最佳实践

什么才叫做懂业务?分析的5个层次。

如何看待数据分析无用论?

到底什么才是数据分析思维? 

就光会拉个数,要你数据分析师有何用? 

数据分析的基石-真实世界

82e8f85120149a125d77bc48e81e4f49.gif

排版 | 老彭

审校 | 老彭  主编 | 老彭

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值