前言
本文是本人研读《深入浅出数据分析》一书后,使用不同工具对书中案例的分析,一是为了加强自己对案例的理解,二是希望能将各种主流工具学以致用,三是将个人的学习思考进行总结量化;
本文所使用的案例数据均从《深入浅出数据分析》的官网中下载,根据自己的学习需求对数据进行了一些处理,不代表官方,官方下载地址如下:examples / Head First Data Analysis · GitLab (oreilly.com)
初始背景
背水公司主要靠投资赚钱,需要分析师们具备无懈可击的判断能力,以帮助公司得到所需要的信息,制定妥善的投资决策,可如今背水公司的分析师们由于在很多方面分歧严重,纷争不断,快把公司吵垮了,老板希望你能搞清楚分歧所在并让分析师们达成共识。
现有信息
每位分析师通过邮件发来了自己对不同事件的观点。部分观点陈述如下:
解决思路
将上述事件一件一件识别出来并设计Excel表,让每个分析师用数字填写自己认为每个事件会发生的概率,因为数字比文字用词"可能"“很有可能”“不可能”等更能体现出个人主观预测的区别所在。通过对填入的数字用散点图进行图形化展示,呈现出主观概率的分布情况,可以大致看出分析师们的分歧所在;
详细步骤
1.识别分歧事件有多少件,设计Excel表格收集每个分析师对各事件预测;Excel表格设计如下:
其中,识别出的分歧事件1~6如下:
事件1: | 事件2: | 事件3: | 事件4: | 事件5: | 事件6: |
俄罗斯下一季会补贴石油业 | 俄罗斯下一季将收购欧航航空公司 | 越南今年将减税 | 越南政府今年将鼓励外国投资 | 印尼旅游业今年将翻身 | 印尼政府将投资生态旅游 |
2.对收集到的事件概率进行图形化展示,可以选择以下两种工具绘制散点图。
(1)Excel
先计算每个事件发生概率的标准差(使用STDEV()计算标准偏差),将数据按照标准差从大到小排序,再使用Excel绘制散点图。先对数据进行排序再绘图可以让图形也按照数据顺序进行排序,呈现出的散点图按照数据离散程度从大到小排序。
(2)Tableau
使用Tableau绘制散点图,按照事件类别对散点图进行整合后呈现;
图表分析
标准偏差大,说明数据点的离散程度大,各个分析师之间的分歧大。
在以下6个事件中,"俄罗斯下一季会补贴石油业”这个事件的预测概率最集中,标准偏差最小,说明分析师在这件事上的分歧最小,而在"越南今年将减税"这件事上分歧最大;
其中“俄罗斯下一季会补贴石油业”和"印尼旅游业今年将翻身"预测概率的标准偏差小于0.1,说明大部分人的意见都一致,不需要进行协调;
在“越南今年将减税”和"俄罗斯下一级将收归欧航航空公司"预测概率的标准偏差大于0.2,说明大部分人的意见都不一致,根据实际情况决定是否需要进行协调;
对"印尼政府将投资生态旅游"这一事件,其实大部分人的主观概率都大于70%,只有一个人的主观概率在10%左右,这也导致了标准偏差看起来大;
意外事件
在大家觉得“俄罗斯下一季会补贴石油业”这件事无可争议,老板也大量买进股票后,突然出了一条新闻说“俄罗斯将卖出油田”,得知这个消息后,老板很担心自己的投资打水漂,分析师们也对“俄罗斯下一季会补贴石油业”这个事件的预测概率有了些许变动,但是具体变动了多少还需要重新统计。
新的目标
现在老板想知道在“俄罗斯将卖出油田”这件事发生后,分析师们对“俄罗斯下一季会补贴石油业”的预测概率还有多少?
解决思路
要解决老板的问题,涉及到条件概率的计算,假设“俄罗斯下一季会补贴石油业”为事件S,“俄罗斯将卖出油田”为事件E,事件不会发生记为~E,~S;
详细步骤
1设计Excel表格收集分析师们对(E|S)、(E|~S)这两个事件的预测概率。表格设计如下:
2.将收集到的结果与之前的P(S),P(~S)进行合并,用公式计算出 P(S|E)。最终得到的表格如下:
3.绘制出得知“俄罗斯将卖出油田”这一事件前后,分析师们对“俄罗斯下一季会补贴石油业”的预测概率散点图P(S)和P(S|E)。可以使用以下两种工具绘图:
(1)Excel
(2)Tableau
4.对比分析
对比之前的概率图P(S),可以看出,大部分分析师的信念动摇不大,只有3位分析师的预测有较大下跌,但是所有分析师的预测概率都还在70%以上,老板决定继续持有股票,结果股票第二天大涨,大家都各得其所。
全文总结
本文通过将信念进行数字化,即将每个人认为某事件发生的可能性用数字来进行量化,运用标准偏差这一指标找出大家都一致认同或意见分歧大的事件,后期又遇到了因为事件之间的相互影响导致事件预测发生变化的情况,这时候可以使用贝叶斯条件概率来计算事件受影响后的发生概率,并对概率数据进行分析,绘制可视化图表,解决了客户问题。
其实这也有点像我们平时接触比较多的投票,先制定N个事件,再让大家投自己最相信的事件一票,哪个事件的票数多,支持率就高,可以很简单统计出大部分人的意见,文中对于"俄罗斯下一季会补贴石油业”这件事也可以让分析师们进行投票,相信投票结果也会是非常可观的。