深度浅出数据分析-学习笔记（二）

最新推荐文章于 2024-09-24 17:06:36 发布

unameta-yy

最新推荐文章于 2024-09-24 17:06:36 发布

阅读量636

点赞数 21

文章标签：数据分析学习笔记

本文链接：https://blog.csdn.net/weixin_46295136/article/details/142377377

版权

章节

贝叶斯统计：穿越第一关
主观概率：信念数字化
启发法：凭人类的天性做分析
直方图：数字的形状

收获

6. 贝叶斯统计

“基础概率不一定在每种情况下都存在，但如果有这个数据却不用，那么，你将毁于基础概率谬误，即忽略事前数据并因此做出错误决策。
必须确保每一个分析过程都充分利用所搜集到的与问题有关的数据。
条件概率：以一件事的发生为前提得另一件事的发生概率。”

问题：一直检验结果计算真正得蜥蜴流感的概率。医生给你诊断结果是“阳性”，但“阳性”并不完全等于“得了流感”，
方法与结论：问题转化为计算概率P(流感|阳性)。
1）第一次检查为阳性
基础概率已知： P(流感)=1%，P(未得流感)=99%（研究表明，全国有1%的人患有蜥蜴流感）。
若某人已患蜥蜴流感，试验结果为阳性的概率为90%；若某人未患蜥蜴流感，试验结果为阳性的概率为9%。
在这里插入图片描述
设总人数为N，
阳性且患流感的人数=N*P(流感)*P(阳性|流感)

阳性且未得流感的人数=N*P(未得流感)*P(阳性|未得流感)

P(流感|阳性)=P(流感)*P(阳性|流感) / [ P(流感)*P(阳性|流感) + P(未得流感)*P(阳性|未得流感) ]
=1%*90%/(1%*90%+99%*9%)=0.09

2）第二次更换更先进更可靠的蜥蜴流感试验，结果为阴性
基础概率更新： P(流感)=9%，P(未得流感)=91%。 此时再使用原来的基础概率 P(流感)=1%不再合适，因为第一次检验结果为“阳性”，从试验结果了解到，你患蜥蜴流感的概率高于基础概率，这个高概率就是你的新基础概率，因为现在你属于试验结果为阳性的人群。
阳性且患流感概率更新：
高级蜥蜴流感诊断实验：若某人已患蜥蜴流感，试验结果为阳性的概率为99%；若某人未患蜥蜴流感，试验结果为阳性的概率为1%。
在这里插入图片描述
阴性且患流感的人数=N*P(流感)*P(阴性|流感)

阴性且未得流感的人数=N*P(未得流感)*P(阴性|未得流感)

P(流感|阴性)=P(流感)*P(阴性|流感) / [ P(流感)*P(阴性|流感) + P(未得流感)*P(阴性|未得流感) ]
=9%*1%/(9%*1%+91%*99%) = 0.001

参考wikipedia上的例子：

一所学校里面有 60% 的男生，40% 的女生。男生总是穿长裤，女生则一半穿长裤一半穿裙子。有了这些信息之后我们可以容易地计算“随机选取一个学生，他（她）穿长裤的概率和穿裙子的概率是多大”，这个就是前面说的“正向概率”的计算。然而，假设你走在校园中，迎面走来一个穿长裤的学生（很不幸的是你高度近似，你只看得见他（她）穿的是否长裤，而无法确定他（她）的性别），你能够推断出他（她）是男生的概率是多大吗？

计算：1）假设学校人的总数是N个；2）男生占比60%，女生占比40%；3）男生都穿长裤，女生中一半穿长裤。因此，
男生中穿长裤的人数=总人数*P(男生)P(长裤|男生)=N60%100%
女生中穿长裤的人数=总人数P(女生)P(长裤|女生)=N40%*50%

P(男生|长裤)=男生中穿长裤的人数=/男生中穿长裤的人数+女生中穿长裤的人数
=N*60%*100%/(N * 60% * 100%+N * 40% * 50%)
=60%*100%/(60%*100%+40%*50%)
=3/4

P(女生|长裤)=女生中穿长裤的人数=/男生中穿长裤的人数+女生中穿长裤的人数
=N*40%*50%/(N * 60% * 100%+N * 40%*50%)
=40%*50%/(60%*100%+40%*50%)
=1/4

7.主观概率信念数字化

“主观概率是用一个数字形式的概率来表示自己对某事的确认程度，主观概率可能表明：根本不存在真正的分歧。标准偏差度量数据的离散程度、贝叶斯修正主观概率”

问题：背水投资公司的分析师们每人一份言论，如何帮助公司管理者解决分歧，获取有价值信息。
方法与结论：
1）从所有分歧言论中，总结提炼导致分歧的主要问题，合计6个；
Statement1:俄罗斯下一季会补贴石油业。
Statement2:俄罗斯下一季将收购欧航航空公司。
Statement3:越南今年将减税。
Statement4:越南政府今年将鼓励外国投资。
Statement5:印尼旅游业今年将翻身。
Statement6:印尼政府将投资生态旅游。

2）每封邮件的撰写人都用了一大堆话来描述他们对各种事情可能性的看法。他们的用词有：可能，极不可能，可能性更大，有可能，可能不，不可能，可能会，大有机会。
3）每位撰写人对导致分歧的6个主要问题给出主观概率；（用数字形式的概率来表示自己对某事的确认程度）
在这里插入图片描述
4）绘制散点图展示主观概率表，可视化分析师们的分歧；

5）对分歧的严重程度进行排序：计算标准偏差，然后对标准偏差降序。
数据集的大部分点会落在平均值的一个标准偏差范围内。

6）最新消息：俄罗斯宣布售出所有油田，称对商业失去信息。
前面已知，分析师们对“俄罗斯政府下一季继续补贴石油业”已达成共识。但有了更新更准确的信息，我们就必须回去修正关于Statement1的主观概率——通过贝叶斯规则。问题转化为：计算【已知新证据的情况下，俄罗斯会继续补贴石油业】这件事的概率。
P(俄罗斯继续支持石油业) ,记为P(B)【已知】
P(俄罗斯不再支持石油业) ,记为P(-B)【已知】
P(俄罗斯宣布售出所有油田|俄罗斯继续支持石油业) ,记为P(A|B) 【新收集】
P(俄罗斯宣布售出所有油田|俄罗斯不再支持石油业),记为P(A|-B) 【新收集】

P(俄罗斯继续支持石油业|俄罗斯宣布售出所有油田)=P(B|A)=P(B)*P(A|B)/[ P(B)*P(A|B) + P(-B)*P(A|-B) ]
在这里插入图片描述
7）新主观概率和老主观概率分别绘制散点图。
结果：新的主观概率稍有放宽。但是，只有三位分析师针对假设给出的主观概率大幅度低于以前的数值；对于大部分人来说，即使俄罗斯前面已经宣布正打算卖掉油田，“俄罗斯将继续支持石油业”的可能性仍在90%左右。
在这里插入图片描述
8）首席执行官的决策：认为俄罗斯会继续支持石油业。后面验证分析师是对的；俄罗斯所谓的卖出油田是虚张声势。

8. 启发法凭人类的天性作分析

“生活中的大部分实际思维活动并非以最理性的方式展开，而是利用既不齐全也不确定的信息，凭经验进行处理，迅速做出决策。奇就奇在这些经验确实能够奏效，因此也是进行数据分析的重要而必要的工具。”
启发法是从直觉走向最优化的桥梁。

问题：市议会要取消对邋遢集的资金支持，请撰写汇报材料，让他们改变主意。
方法与结论：面临的问题：散乱垃圾结构复杂，无法建立和运用统一的散乱垃圾计量模型。
从两个维度计量自己的工作效果：一是公众调查。根本策略是改变人们的行为习惯，让人们不再乱扔垃圾。二是调研固体垃圾清运工，让他们给出垃圾量减少的结论。
在这里插入图片描述

答复市议会的几个问题：
1）为什么你不直接计量垃圾量？
答：能够计量，但是太费钱了。费用是你们支付给邋遢集工作费用的两倍。所以，最好的方法是用这个启发法来评估绩效，方法很简单，但我们相信会有效。
2）你能证明邋遢集的活动有效果吗？
答：所有的数据都是观察数据，我们无法证明公众乱扔垃圾一是的改善以及环保工人相信已经发生的散乱垃圾的减小是邋遢集的工作成果，但我们的确有理由相信，是邋遢集的活动造成了这些结果。
3）你能证明你的策略持续有效吗？生活中没有万无一失的事，但只要能够让公众意识保持宣传活动后的进步状况，很难想象大家会突然重新大扔垃圾。
4）为什么不花钱打扫，而是花钱搞教育？
要是只打扫不教育的话，就不叫减少乱扔垃圾行为，因为没做什么让人们不再乱扔垃圾的事；应该叫赶紧搞卫生，这可不关邋遢集的事。