【数据分析】——统计的世界

01 为什么要学统计学?

统计学一门收集、分类、处理、分析事实和数据的科学。

统计学的核心是应用和数据,就是通过分析数据来深刻地探索这个世界,找到世界的模型。

统计研究数据,数据其实是我们日常生活中对我们感兴趣的事情的一次次记录。

比如:研究空气质量

定义描述空气质量的指标:空气中各有害物质的含量,如:CO、臭氧、二氧化硫、PM10、PM2.5。

记录数值:

 经过每天记录,就形成了样本记录

统计学:告诉你我记录了10天下雨的情况,你把下雨这个变量的总体分布情况告诉我。

概率论:告诉你下雨的概率,你预测明天到底下不下雨。告诉你规则,你告诉我结果。

02 描述统计学-研究单个变量X的集中趋势、离散趋势

统计学中的随机变量类型

连续型数据:定量数据(连续数)、测量数值、变量取值个数不可数

类别型数据:定性数据(离散值)、变量取值个数一定 

2.1 集中趋势:选一个中心

我用一个数能代表一组数,这组数就应该去选一个中心,这个中心就叫集中趋势。

 两个公司的员工及薪资构成如下:

A:经理1名,月薪100000;高级员工,15名,月薪10000;普通员工20名,月薪7500

B:经理1名,月薪20000;高级员工,20名,月薪11000;普通员工15名,月薪9000

请比较两家公司的薪资水平。若只考虑薪资,你会选择哪一家公司?

均值:A(100000+15*10000+20*7500)/ 36 = 11111.1

           B(20000 + 20*11000 + 15*9000)/36 = 10416.67

中位数:A 7500               B 11000

众数:  A 7500                 B 11000

若从均值去考虑,明显A公司的平均薪资比B公司的高,但是A公司存在一个极端值,大大地拉高了A公司的均值,这时只从均值考虑明显不太科学。从中位数和众数来看,B公司的薪资水平比较高,若是一般的员工,选择B公司显得更加合理。

优点缺点
均值充分利用所有数据,适用性强容易受到极端值影响
中位数不受极端值影响缺乏敏感性
众数当数据具有明显的集中趋势时,代表性好;不受极端值影响缺乏唯一性:可能有一个,可能有两个,可能一个都没有

请问:

1.你的薪水、身高、体重被平均过么?

2.你在做选择的时候被平均值迷惑过么?

 如上图:这是一个公司收益率的一个报表,算出来平均收益率有8%,但是公司破产了。因为后面出现了一个极端的负值。所以光靠平均数来衡量也是不可取的。

思考:谁赢了?

 平均值、中位数都是500

A代表江湖,每个人的差距都特别大

B代表锦衣卫 每个人的差距都不大

2.3 离散趋势:一组数离数据中心的紧密程度

比较下面两组数据:

A——1 2 5 8 9         B——3  4  5  6  7 

两组数据的均值都是5,但是可以看出B组的数据与5更加接近。但是有描述集中趋势的统计量不够,需要有描述数据的离散程度的统计量

极差:最大值-最小值,简单地描述数据的范围大小

A:9-1=8;        B: 7-4 =3

同样的5个数,A的极差比B的极差要大,所以也比B的要分散。

提问:下面的两组数,哪组离散程度更大?

A—— 1 2 5 8 9

B—— 1 4 5 6 9

方差:

标准差 

如下图四个运动员的成绩你选谁?

03 数据的分布

3.1直方图

为了使数据更好的浏览,清晰,我们一般选择使用直方图来表示。

 

横坐标代表成绩,纵坐标代表人数,从图上就可以看出成绩大部分都集中在80~90之间。

3.2 分位数与箱线图

把以上的数据从小到大排列起来如下图:

 四分位距IRR:Q3-Q1  87-69

上界/上极限:Q3 + 1.5 IQR

下界/下极限:Q1 - 1.5IQR

 3.3 异常值的判定的常用方法

 04 推断统计学

概率:

P(X)=0.5       如抛硬币。

P(X)=a*X²+b*X+c    我在研究概率,我把概率认为它是跟我X取值相关的。

4.1 分析X,发生的规律:

        a.X取值离散:二项分布、几何分布、泊松分布

        b.X取值连续:均匀分布、正态分布

        c.已知规则下的概率计算

4.1.1

4.1.2 几何分布

4.1.3 泊松分布

4.1.4三种常用的连续的概率分布

例如: 正态分布

横坐标就是数值,纵坐标代表代表事件发生的次数。

数据的分布

Mo是众数;Me是中位数;是平均值

对称:均值等于平均值,说明这个数值比较平均。

右偏:说明右边有一个极大值,极大值会影响平均值,所以中位数会小于平均值

左偏:与右偏相反

4.2 通过大量试验(样本),利用试验结果取估计总结概率函数。

大数定理:切比雪夫大数定理;伯努利大数定律;幸钦大数定律

每次从总体中随机抽取1个样本,这样抽取很多次后,样本的均值会趋近于总体的期望。

总结:只要试验次数够多,得到的试验结果,就更趋近于真实世界的情况。

4.3 概率的争议

频率学派:一个事务的概率是固定的,等于发生的次数/总体的可能性。局限!我们无法得知总体。

贝叶斯学派:概率会在不同的条件下而发生改变。当我们什么信息都不知道的时候,这个概率叫做先验概率。

 

 如上图,请问:康复的概率?

P(治疗) = 5/10   P(不治疗) = 5/10

P(康复) = 4/10   P(为康复) = 6/10

P(康复|治疗) = 3/5

P(治疗、康复) = P(治疗|康复) *P(康复)

                        =P(康复|治疗) * P(治疗) = 3/10

贝叶斯公式:

 朴素贝叶斯垃圾邮件过滤器

4.4 卡方检验

检验两个离散型变量是否相关。

例如:性别和网购的关系?

           治疗和治愈的关系?

 

 4.5 线性相关性

 

例如:横坐标代表体重 ,纵坐标代表体重。每个点就代表一个样本,发现每个点连起来差不多是在一条直线,就说明可以用y=kx+b来表示,随着x的增长,y也呈现增长,说明正线相关。

 

要多去看,去了解

1、集中趋势

2、离散趋势

3、什么是数据的分布?

4、概率密度函数f(x)

5、概率P(X)

6、贝叶斯公式

7、卡方检验

8、相关性检验

9、异常值如何找出

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

再快一步`

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值