活水决策体系三:数据

​数据是指待解决问题的相关数据,包括但不限于这个问题本身的数据及外部数据(行业数据,基础概率等等属于外部数据)。数据无处不在,我们从早上一睁开眼就开始接收各种各样的数据。无论是我们自己感受到的,听到的,看到的等等都是数据。

本身数据

当我们面对一个问题的时候,这个问题本身肯定有一些数据。如果没有,那就要想办法收集。没有问题本身的数据,很多事情没法往下走。比如说我们需要定位和解决一个数据丢失的问题。这个问题本身的数据有哪些呢?数据丢失是不是必现?如果是必现的,那重现需要哪些条件。如果不是必现的,那每次出现有什么规律,一般是什么时候出现,这个数据丢失的问题本身的数据还可以有很多,就看数据是不是足够我们定位和解决它了。如果问题一直得不到解决,就需要进一步挖掘更多数据。比如说我们要判断一个股票是否值得买入。这个问题本身的数据有:管理层,营收特征,商业模式,战略规划等等。

外部数据

外部数据是指问题本身所处环境的一些数据。比如说数据丢失的问题的外部数据有:之前有没有出现过类似问题,之前有没有出现过类似的表现,之前出现数据丢失的原因是什么等等。比如说判断一个股票是否值得买入的外部数据有:公司所属行业,行业竞争激烈程度,行业发展趋势,社会发展趋势等等。外部数据是很重要的数据,因为不是问题本身的数据,所以比较容易忽略。外部数据的重要性可以通过贝叶斯定理来说明。

 

贝叶斯定理为:P(A|B) = P(B|A) * P(A) / P(B)

P(A):表示事件A发生的概率,也叫事件A的先验概率,因为这里A事件的发生不考虑其它因素,比如B事件。

P(B):表示事件B发生的概率,也叫事件B的先验概率,因为这里B事件的发生不考虑其它因素,比如A事件。

P(B|A):表示事件A发生后,事件B发生的概率。

P(A|B):表示事件B发生后,事件A发生的概率,也由于得自B的取值而被称作后验概率。

另外,P(B|A) / P(B) 有时也称作标准似然度,贝叶斯定理可以表述为:后验概率 = 标准似然度 * 先验概率。

 

这里的先验概率,也就是我们上边说的基础概率。假设交通局统计得出凌晨开车出事故的基础概率(即先验概率P(A))是比较高的,那我们应该尽量避免在这个时间段在高速路上开车。但是不少人觉得他比较特殊,如果是他的话肯定没事,也就是他认为后验概率P(A|B)会很小,即他在凌晨开车发生事故的概率很低。而后验概率 = 标准似然度 * 先验概率,标准似然度是P(B|A) / P(B),P(B)就是这个人在任何时候开车出事故的概率,而P(B|A) 是指在凌晨这个人开车出事故的概率,简单常识可以知道,这个比例P(B|A) / P(B)应该是大于1的(即在这个人凌晨开车出事故比在所有时间开车出事故的概率高)。也就是只要先验概率高,后验概率也不会低,所以我们知道这个人的判断可能跟事实有出入(过度自信是大部分人都有的倾向)。我们可以看到通过基础概率(即先验概率)这个外部数据可以帮我们做出更好的决策。

再举个例子,假设互联网行业平均薪酬是2万,制造业平均薪酬是5千。我们不能说制造业的人就一定比互联网行业的人薪酬低,但是即使入职时两个行业给的薪酬一样,一段时间以后选择互联网行业薪酬会比较高的概率还是比较大的。

数据挖掘

当我们拿到很多自身数据和外部数据后,我们除了可以直接分析这些数据,我们还可以对这些数据做一些挖掘工作。数据挖掘工作可以完成的一些普遍任务有:预测分析(分类,回归等等),关联分析,聚类分析,异常检测等等。比如说我们看看普通情况下哪些数据是有关联的,比如假设A类型数据与B类型数据是关联度比较高,A数值高的时候B也高。假设我们收集到了本次事件的A类型数据是比较小的,那我们其实可以简单预测本次事件的B类型数据也可能是比较小的。数据挖掘可以作为在充分收集本身数据及外部数据后依然不能很好解决问题的情况下的另外一种数据收集办法。

更多最新文章,请扫描下边二维码,关注公众号:学习者说

公众号二维码

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值