描述统计学
其数据分为数值数据和分类数据。
统计度量
- MEDIAN 函数返回中位数;
- MODE众数;
- weeknum 返回一年的第几周;
- weekday周几;
- var.p方差 stdev.p标准差(单位统一);
- 四分位数QUARTILE(array,quart)函数 array表示需要计算四分位点的数据集,quart决定需要返回哪一个四分位点。 quart参数的值在0~4之间,如果,0表示需要返回最小值;1表示需要返回第一个四分位点,即25%处的数据;如果该参数为2,表示需要返回第二个四分位点,即50%处的数据,也就是中值;如果该参数为3,表示需要返回第三个四分位点,即75%处的数据;如果该参数为4,表示需要返回最大值点。
以下是方差和标准差。
以下是数据标准化:将两组不能比的数据放在一块比,比如:时间和销量、温度和订单数等。
切比雪夫定理(可以排除异常值):
- 至少有75%的数据,位于平均数2个标准差范围内;
- 至少有89%的数据,位于平均数3个标准差范围内;
- 至少有96%的数据,位于平均数5个标准差范围内 。
图形
数据分析师常用的有箱线图(上下边缘是上下两个小横线)和直方图。
直方图等距划分,并且存在偏度。
常见直方图类型有:
切比雪夫定理V2.0
- 正态分布中,至少有68%的数据,位于平均数1个标准差范围内;
- 正态分布中,至少有95%的数据,位于平均数2个标准差范围内;
- 正态分布中,至少有99.8%的数据,位于平均数3个标准差范围内。
概率世界
条件概率:P(A|B),读作“A在B发生的条件下发生的概率”。
例:如果某种疾病的发病率为千分之一。 现在有一种试纸, 它在患者得病的情况下,有99%的准确率判断患者得病,在患者没有得病的情况下,有5%的可能误判患者得病。现在试纸说一个患者得了病,那么患者真的得病的概率是多少?
贝叶斯定理:
- P(A1) 代表是真实患者的概率;
- P(A2) 代表是健康人群的概率;
- P(B) 代表试纸查出患者的概率;
- P(B|A1) 为真实患者条件下试纸查出患者的概率,即99%;
- P(B|A2) 为健康人群条件下试纸误判为患者的概率,即5%;
- P(A1) 为真实患病率0.1% ,P(A2)为健康率99.9%。