统计基本知识

描述统计学

其数据分为数值数据分类数据。

统计度量

  • MEDIAN 函数返回中位数;
  • MODE众数; 
  • weeknum 返回一年的第几周;
  • weekday周几;
  • var.p方差 stdev.p标准差(单位统一);
  • 四分位数QUARTILE(array,quart)函数 array表示需要计算四分位点的数据集,quart决定需要返回哪一个四分位点。 quart参数的值在0~4之间,如果,0表示需要返回最小值;1表示需要返回第一个四分位点,即25%处的数据;如果该参数为2,表示需要返回第二个四分位点,即50%处的数据,也就是中值;如果该参数为3,表示需要返回第三个四分位点,即75%处的数据;如果该参数为4,表示需要返回最大值点。

以下是方差标准差

以下是数据标准化:将两组不能比的数据放在一块比,比如:时间和销量、温度和订单数等。

切比雪夫定理(可以排除异常值)

  • 至少有75%的数据,位于平均数2个标准差范围内;
  • 至少有89%的数据,位于平均数3个标准差范围内;
  • 至少有96%的数据,位于平均数5个标准差范围内 。

图形

数据分析师常用的有箱线图(上下边缘是上下两个小横线直方图

直方图等距划分,并且存在偏度。
 

 常见直方图类型有:

切比雪夫定理V2.0

  • 正态分布中,至少有68%的数据,位于平均数1个标准差范围内;
  • 正态分布中,至少有95%的数据,位于平均数2个标准差范围内;
  • 正态分布中,至少有99.8%的数据,位于平均数3个标准差范围内。

 概率世界

条件概率:P(A|B),读作“A在B发生的条件下发生的概率”。

例:如果某种疾病的发病率为千分之一。 现在有一种试纸, 它在患者得病的情况下,有99%的准确率判断患者得病,在患者没有得病的情况下,有5%的可能误判患者得病。现在试纸说一个患者得了病,那么患者真的得病的概率是多少?

 贝叶斯定理

  • P(A1) 代表是真实患者的概率;
  • P(A2) 代表是健康人群的概率;
  • P(B) 代表试纸查出患者的概率;
  • P(B|A1) 为真实患者条件下试纸查出患者的概率,即99%;
  • P(B|A2) 为健康人群条件下试纸误判为患者的概率,即5%;
  • P(A1) 为真实患病率0.1% ,P(A2)为健康率99.9%。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值