7周-数据分析6周-统计学

part 1.描述统计学

描述统计学是什么?

在业务中可以用一句话描述,就是当那带一份数据的时候,首先怎么做?用几个快速高效的方法,快速掌握数据

数据的分类

数据分为:1.数值数据(可以进行加减乘除的数据);2.分类数据(是类别,是文本数据。例如男、女,分类数据不能进行算数运算)。

数值数据和分类数据是可以相互转换的。比如年龄,数值数据有20、48、78等,这些可以转换成分类数据“少年”、“青年”、“中年”、“老年”等。

分类数据描述统计

频数统计

频数百分比

数值数据描述统计

数值数据描述统计分为两部分:1. 统计度量;2.图形

1.统计度量
平均数、中位数、众数

平均数(在数值差距不大是使用)

中位数(把数据从小到大排列之后,中间的数,奇数个数据排列时中位数是中间的数;偶数个数据排列时中位数是中间两个数的平均值;excel中的medlan函数)

众数(出现频率最高的数;excel中的mode函数)

当平均数大于中位数时,说明数据不均衡,是向数据值较大的一方集中的;当平均数小于中位数时,说明数据不均衡,是向数据值较小的一方集中的。

分位数

上图是四分位数法(quartile函数),把一组数据从小到大排列,均匀的四等分,25%分位数称为“第一分位数”;中位数称为“第二分位数”;75%分位数称为“第三分位数”。

把数据分成几等分,就是几分位数法。

二八法则

方差

上图中上面一组的方差小,下面一组数据的方差大。

方差越大,波动性越强。

Excel中:VARP(范围),求方差

减去的是平均值,差的平方和除以n。平方是把正负值去掉。

标准差

方差开根号。

Excel中:STDEVP(范围),求方差

如何描述上下的波动(标准差),上下限(正负的概念,上下限是平均值加减标准差)。

波动不一定是把这组数据全部包括进去,主要包括大部分数据即可。

数据标准化:Z-Score

数据标准化其实是一种更加细致的分析,也就是将两组不能直接对比的数据进行转化,或者用它来去检查一些更加清晰明了的趋势。

权重预估

切比雪夫定理

切比雪夫定理是一个经验公式,比如平均数是100,标准差是20,那么至少75%的数据会在60-140之间;至少89%的数据会在40-160之间;至少96%的数据会在0-200之间。即可以根据切比雪夫定理这个经验公式来确定数值的大概范围。

切比雪夫定理的作用:

1.根据切比雪夫定理这个经验公式来确定数值的大概范围。

2.用于异常值检测。

2.图形

箱线图、直方图是描述统计中的可视化

箱线图

箱线图和分位数息息相关,有了分位数就可以分析箱线图。以上图的四分位图为例,通过箱体可以看出50%(75%-25%)的数据集中出现在哪里。

箱体:即上图中的带颜色的矩形,第一分位数是箱体的下边线第三分位数是箱体的上边线中横线中位数平均数用一个×来表示。

四分位差IQR:第三分位数 - 第一份位数

下边缘:Q1 - 1.5IQR

上边缘:Q3 + 1.5IQR

上下边缘的作用是:做经验推送,大部分的数据都是在上下边缘之间。上下边缘与切比雪夫定理两者都是对异常值的估计。切比雪夫是对于标准差的估计,上下边缘是对分位数的估计。如果一个数比上边缘还大则作为异常值处理。

上图中橙色箱线图的上方有一个橙色的点,是异常点,因为这个橙色的点离橙色箱线图的上边缘太远了。一般异常的点不会太多,且在图中用点表示。如果用在同一条直线上的点来描述这个橙色的箱线图,下边缘到第一份位数的(长)区间的点是松散的,第一分位数到中位数的(短)区间的点是密集的,中位数到第三分位数的(长)区间的点是松散的,第三分位数到上边缘的(短)区间的点是密集的。

直方图
典型的直方图

横坐标用开闭区间。

用excel做直方图。箱宽度、箱数

长尾分布,长尾理论。

6种类型的直方图

陡壁型数据一般出现在消费数据的时候,和用户的支出相关。左边出现断壁的原因是消费的金额要大于0;锯齿形数据说明数据不太稳定,采集数据的时候有偏差;孤岛型数据会有一些孤岛一样的异常小数据,要分析小孤岛产生的原因;偏锋型数据一般出现在消费数据的时候,一般会有一边的数据是长尾,左边右边都有可能,例如中国人的薪资分布是典型的偏锋型数据。一般来说和钱有管的数据都是偏锋型数据;双峰型数据是两种数据的混合。根据业务的场景判断数据的类型。

偏度

偏度:描述数据怎么偏。偏度是一个指标,可以用数值表示。

偏度大于0时,长尾在右边;偏度小于0时,长尾在左边。

峰度

峰度:描述直方图的形状,峰度越大说明直方图越瘦;峰度越小说明直方图越胖。

标准型分布(正态分布)

正态分布型的直方图

定理:切比雪夫定理V2.0

总结

平均数、中位数、众数、分位数、方差、数据标准化:Z-Score、权重预估、切比雪夫定理、箱线图、直方图

part 2.概率的世界

概率

概率:描述一件事情发生的可能性,在0到1 之间。

案例:抛硬币

交并补

P:概率

条件概率

条件概率:B条件发生的条件下,A条件发生的概率。(两个条件不完全独立与两个条件完全独立的条件 两种情况。)

贝叶斯定理

案例:

如果某种疾病的发病率为千分之一。现在有一种试纸,它在患者得病的情况下,有99%的准确率判断患者得病,在患者没有得病的情况下,有5%的可能误判患者得了病。现在试纸说一个患者得了病,那么患者真的得病的概率是多少?

树形图计算概率

1.9,也就是说试纸说一个患者有病实际上只有1.9%的概率患者有病,概率这么低是由多个原因条件造成的,首先“发病率为千分之一”,其次试纸的靠谱程度还是比较低的5%,因为发病率低,所以健康的人很多,即使试纸很靠谱,判断错误的情况也会很多(基数大)。

贝叶斯定理计算概率

贝叶斯公式

练习

练习1:参加营销活动的人群中,女性只有30%,能否说明女性不爱参加?

只有结果不能判定,需要由这个结果反推原因发生的可能性,要知道先行条件。比如说这个营销活动的目标人群是女性,那么女性只有30%确实能说明女性不爱参加,如果目标人群是男性,那么女性只有30%说明女性爱参加。

练习2:某城市有两种颜色的出租车,蓝车和绿车市场比率15:85。一辆出租车夜间肇事后逃逸,但还好当时有一位目击证人,这位目击者认定肇事的出租车是蓝色的。但是,他的目击未必可信,公安人员经过在相同环境下对该目击者进行“蓝绿”测试而得到:80%的情况下识别正确,20%的情况不正确。那么实际为蓝车的可能性是多少?

练习3:我们经常会收到垃圾短信,假设在1000条正常短信中 ,包含「澳门赌场」的短信有2条,而在垃圾短短信中,包含「澳门赌场」的短信有400条。现在我们接收到了一条新短信,在不浏览内容的情况下,假定它的正常几率是50%。现在对短言内容的解析,发现了澳门赌场这个词,那么它是垃圾短信的概率有多高?

补充:

这篇文章是比较基础的统计学知识,想数据挖掘和机器学习相关的统计学比较高深。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值