概率论的学习和整理12: 正态分布

 

1 问题: 什么是正态分布,为什么这么出名和重要?

1.1 名气大

  • 正态分布的大名,如雷贯耳
  • 很多人一说到概率,除了想到丢骰子的古典概型,第二个会想到的就是正态分布了
  • 下图就是正态分布和标准正态分布曲线的图

  • 甚至大部分有区分度的考试(选拔筛选考试,而不是资格水平考试)
  • 学生成绩没呈现正态分布,可以说是试卷出卷和教学有问题

1.2 正态分布从哪儿来? 谁发明的?

名字:

  • 正态分布(Normal distribution)
  • 正常分布!一般的分布,完全可以这么翻译
  • 高斯分布(Gaussian distribution)
  • 钟形曲线  (bell curve)
  • 正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个极其常见的连续概率分布。因为正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。
  • 高斯、拉普拉斯、棣莫弗、勒让德很多大神的作用一步步发展而来,高斯是发明了最小二乘方法
  • 正态分布最初是从二项分布发展而来的,二项分布的pmf确实很像正态分布
  • 后来推广到其他概率分布,当样本量极大时接近无限,所有的分布都可以认为趋向于正态分布?
  • 哪些情况可以用正态分布?一般来说,据说是只要是针对同一类型的变量的试验,次数足够大的情况,都会趋向正态分布的

1.3 正态分布是概率论,还是统计?

  • 我觉得更多的是统计学
  • 因为都是从观测的数据,去反推这些数据服从什么  随机变量--概率的规律--也就是  概率密度曲线pdf,也就是概率的分布!

2 正态分布的基本概念内容介绍

2.1  正态分布

  • 正态分布,
  • 正态分布概率函数 
  • f(x)=[1/(√2π)δ]*e^[-(x-u)^2/2(δ^2)] 
  • 正态分布的平均值  u,是理想的假设知道所有值之后的算术平均值?
  • 正态分布的期望? 就是均值吧

  • 正态分布的标准差  δ=np(1-p)
  • 正态分布的方差? 就是标准差的平方吧 δ^2

2.2 标准正态分布

  • 正态分布概率函数 f(x)=[1/(√2π)δ]*e^[-(x-u)^2/2(δ^2)]
  • 当u=0,δ=1 时,就是标准正态分布
  • 标准正态分布的概率公式更简洁

2.3 正态分布曲线  和 各种标准的意思

  • 第1置信区间: [-δ,δ] 之间,68.3%
  • 第2置信区间: [-2δ,2δ] 之间,95.4%
  • 第3置信区间: [-3δ,3δ] 之间,99.7%

2.4 正态分布的特点

  • 3个置信区间的
  • 第1置信区间: [-δ,δ] 之间,68.3%
  • 第2置信区间: [-2δ,2δ] 之间,95.4%
  • 第3置信区间: [-3δ,3δ] 之间,99.7%
  • 平均值就是期望
  • 极端值很少,在 [-3δ,3δ] 之外的数很少
  • 标准差小,则数据集中,钟形曲线瘦高个,如果是标准差大,那么钟形曲线就扁和矮。

2.5 正态分布的推论

  • 正态分布变量的和,一般也是正态分布
  • 正态分布相加,一般期望就等于2者期望之和,标准差等于2者标准差之和
  • 也就是正态分布相加,正态分布会变扁(因为标准差是求和变大了!越大越扁)
  • 正态分布还和柯西分布,k2分布有关系

3 哪些情况符合正态分布呢?

3.1 正态分布的适用范围

  • 正态分布,名字叫正常分布,适用面积非常的广
  • 常见的正态分布举例,比如WHO统计的儿童身高体重不就是正态分布的3个区间的数字么
  • 也就是一般就看 [-2δ,2δ] 之间,95.4% 就够了

3.2 哪些情况适合正态分布呢?

正态分布最初是从二项分布发展而来的,二项分布的pmf确实很像正态分布,后来推广到其他概率分布,当样本量极大时接近无限都可以认为趋向于正态分布?

哪些情况可以用正态分布?一般来说,据说是只要是针对同一类型的变量的试验,次数足够大的情况,都会趋向正态分布的

  • 正态分布,从离散的二项分布出发
  • 但是正态分布本身是一种连续分布
  • 正态分布是连续的,意味着单个点的概率p=0,只能关注区间概率
  • 哪些情况可以用正态分布?
  • 一般来说,据说是只要是针对同一类型的变量的试验,次数足够大的情况,都会趋向正态分布的,也就是正态分布具有普适性。。。

  • 生活中到处都是正态分布,试验次数很多的结果
  • 人们认为正态分布完美地诠释了讲到的“同质”和“变异”这两个概念。
  • 正是因为我们研究的对象具有同质性,所以其特征往往是趋同的,也即存在一个基准(均数),但由于个体变异的存在,这些特征又不是完全一致,

几个关键点

  • 只要是针对同一类型的变量的试验,这个说法,意味着一般是类伯努利试验,每次试验之间是独立的,互不影响
  • 也就是说这些随机元素,影响因素之间要独立
  • 而且一般说,影响的因素要比较多
  • 这些随机元素对结果的影响,一般是使用加法原理,用加和的方法求得。也就是这些因素对完成随机试验的结果,是并行的关系。
  • 举例子,用身高举例,遗传因素,环境因素,饮食因素,锻炼因素都是独立的(或者相关程度很低,不是强相关),他们对身高的影响都是可以用加法原理加和的。这样的就符合正态分布

3.3 哪些不适合正态分布呢?

  • 随机元素之间,不是独立的,而是有互相影响则可能不正态分布
  • 如果一些因素作用还可能有前后步骤,乘法原理的关系,就可能不是正态分布
  • 如果影响的因素毕竟少,不多,原因太单一可能不是正态分布

正态分布变成标准正态分布

我能不能理解标准化就是把图形σ倍缩小然后移动μ个位置啊

4  为什么呢?

4.1 极大似然估计

4.2 中心极限定理

4.3 最小二乘法

样本足够大则近似认为服从正态分布

样本量一般至少要超过30才可以认为可以近似正态分布

5 具体例题举例,还需要查表

查表

6 另外几个分布

  • k2分布
  • f分布
  • t分布等等

7  一些有趣的研究

  • 牛人们根据这个研究出,不同XX的人组合,就是正态分布的叠加,因此标准差会变大。。。。
  • 第一次看到这种角度,理解他们的想法了,脑洞好大啊

 


 

  • 4
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值