01 为什么要学统计学?
统计学一门收集、分类、处理、分析事实和数据的科学。
统计学的核心是应用和数据,就是通过分析数据来深刻地探索这个世界,找到世界的模型。
统计研究数据,数据其实是我们日常生活中对我们感兴趣的事情的一次次记录。
比如:研究空气质量
定义描述空气质量的指标:空气中各有害物质的含量,如:CO、臭氧、二氧化硫、PM10、PM2.5。
记录数值:
经过每天记录,就形成了样本记录
统计学:告诉你我记录了10天下雨的情况,你把下雨这个变量的总体分布情况告诉我。
概率论:告诉你下雨的概率,你预测明天到底下不下雨。告诉你规则,你告诉我结果。
02 描述统计学-研究单个变量X的集中趋势、离散趋势
统计学中的随机变量类型
连续型数据:定量数据(连续数)、测量数值、变量取值个数不可数
类别型数据:定性数据(离散值)、变量取值个数一定
2.1 集中趋势:选一个中心
我用一个数能代表一组数,这组数就应该去选一个中心,这个中心就叫集中趋势。
两个公司的员工及薪资构成如下:
A:经理1名,月薪100000;高级员工,15名,月薪10000;普通员工20名,月薪7500
B:经理1名,月薪20000;高级员工,20名,月薪11000;普通员工15名,月薪9000
请比较两家公司的薪资水平。若只考虑薪资,你会选择哪一家公司?
均值:A(100000+15*10000+20*7500)/ 36 = 11111.1
B(20000 + 20*11000 + 15*9000)/36 = 10416.67
中位数:A 7500 B 11000
众数: A 7500 B 11000
若从均值去考虑,明显A公司的平均薪资比B公司的高,但是A公司存在一个极端值,大大地拉高了A公司的均值,这时只从均值考虑明显不太科学。从中位数和众数来看,B公司的薪资水平比较高,若是一般的员工,选择B公司显得更加合理。
优点 | 缺点 | |
均值 | 充分利用所有数据,适用性强 | 容易受到极端值影响 |
中位数 | 不受极端值影响 | 缺乏敏感性 |
众数 | 当数据具有明显的集中趋势时,代表性好;不受极端值影响 | 缺乏唯一性:可能有一个,可能有两个,可能一个都没有 |
请问:
1.你的薪水、身高、体重被平均过么?
2.你在做选择的时候被平均值迷惑过么?
如上图:这是一个公司收益率的一个报表,算出来平均收益率有8%,但是公司破产了。因为后面出现了一个极端的负值。所以光靠平均数来衡量也是不可取的。
思考:谁赢了?
平均值、中位数都是500
A代表江湖,每个人的差距都特别大
B代表锦衣卫 每个人的差距都不大
2.3 离散趋势:一组数离数据中心的紧密程度
比较下面两组数据:
A——1 2 5 8 9 B——3 4 5 6 7
两组数据的均值都是5,但是可以看出B组的数据与5更加接近。但是有描述集中趋势的统计量不够,需要有描述数据的离散程度的统计量
极差:最大值-最小值,简单地描述数据的范围大小
A:9-1=8; B: 7-4 =3
同样的5个数,A的极差比B的极差要大,所以也比B的要分散。
提问:下面的两组数,哪组离散程度更大?
A—— 1 2 5 8 9
B—— 1 4 5 6 9
方差:
标准差
如下图四个运动员的成绩你选谁?
03 数据的分布
3.1直方图
为了使数据更好的浏览,清晰,我们一般选择使用直方图来表示。
横坐标代表成绩,纵坐标代表人数,从图上就可以看出成绩大部分都集中在80~90之间。
3.2 分位数与箱线图
把以上的数据从小到大排列起来如下图:
四分位距IRR:Q3-Q1 87-69
上界/上极限:Q3 + 1.5 IQR
下界/下极限:Q1 - 1.5IQR
3.3 异常值的判定的常用方法
04 推断统计学
概率:
P(X)=0.5 如抛硬币。
P(X)=a*X²+b*X+c 我在研究概率,我把概率认为它是跟我X取值相关的。
4.1 分析X,发生的规律:
a.X取值离散:二项分布、几何分布、泊松分布
b.X取值连续:均匀分布、正态分布
c.已知规则下的概率计算
4.1.1
4.1.2 几何分布
4.1.3 泊松分布
4.1.4三种常用的连续的概率分布
例如: 正态分布
横坐标就是数值,纵坐标代表代表事件发生的次数。
数据的分布
Mo是众数;Me是中位数;是平均值
对称:均值等于平均值,说明这个数值比较平均。
右偏:说明右边有一个极大值,极大值会影响平均值,所以中位数会小于平均值
左偏:与右偏相反
4.2 通过大量试验(样本),利用试验结果取估计总结概率函数。
大数定理:切比雪夫大数定理;伯努利大数定律;幸钦大数定律
每次从总体中随机抽取1个样本,这样抽取很多次后,样本的均值会趋近于总体的期望。
总结:只要试验次数够多,得到的试验结果,就更趋近于真实世界的情况。
4.3 概率的争议
频率学派:一个事务的概率是固定的,等于发生的次数/总体的可能性。局限!我们无法得知总体。
贝叶斯学派:概率会在不同的条件下而发生改变。当我们什么信息都不知道的时候,这个概率叫做先验概率。
如上图,请问:康复的概率?
P(治疗) = 5/10 P(不治疗) = 5/10
P(康复) = 4/10 P(为康复) = 6/10
P(康复|治疗) = 3/5
P(治疗、康复) = P(治疗|康复) *P(康复)
=P(康复|治疗) * P(治疗) = 3/10
贝叶斯公式:
朴素贝叶斯垃圾邮件过滤器
4.4 卡方检验
检验两个离散型变量是否相关。
例如:性别和网购的关系?
治疗和治愈的关系?
4.5 线性相关性
例如:横坐标代表体重 ,纵坐标代表体重。每个点就代表一个样本,发现每个点连起来差不多是在一条直线,就说明可以用y=kx+b来表示,随着x的增长,y也呈现增长,说明正线相关。
要多去看,去了解
1、集中趋势
2、离散趋势
3、什么是数据的分布?
4、概率密度函数f(x)
5、概率P(X)
6、贝叶斯公式
7、卡方检验
8、相关性检验
9、异常值如何找出