第二章 随机性与基础统计

常用“平均值”: 均值 众数 中位数

概率分布函数

  • 均匀分布

  • 基本均匀分布 除了0 ~ 1之间,其他区域的取值都是0 0~1间的取值为1

  • 基本特性 只能得到0~1之间的数;0 ~1之间的每个数字取到的可能性是等可能得

  • 创建均匀分布的库函数会允许我们去选择非零区域开始和节数的地方,而非固定在0~1

  • 除了默认的0~1的选项 最受欢迎的是-1 ~1

  • 正态分布(高斯分布/钟形曲线)

  • 宽度无限 但有时会将偏离中心店一定距离的值夹断(clamp)并假设超出该距离的部分为0 从而得到一个有限分布

  • 使用正态分布的随机变量产生的值被称为正态分布集,有时也被称为正态偏差 我们也说他们你喝或者遵循正态分布。

  • 每个正态分布有两个数字定义:均值标准差

  • 性质:均值同时是中位数也是众数

  • 假设有1000个样本,那么- σ~ σ之间有680个样本;-2 σ~2 σ之间有950个,在-3 σ~3 σ之间有997个。

  • 伯努利分布(返回值为0或1)

  • 2种情况,若情况1的概率为p那么情况2的概率为1-p

  • 多项式分布(类别分布)

  • 多种类别 是哪一类 哪一类为1 其他为0

  • 期望值(平均值)

抽样与放回

是否放回对于构建新数据集有影响

  • 放回抽样(SWR)
    我们可能会多次使用同一元素,整个新建立的数据集是原始数据集的一个副本
    创建的心得数据集可以比原始数据集小,相同或者大。
  • 无放回抽样(SWOR)
    选择相互依赖,但每次被选中的概率不同

Bootstrapping 算法

通常会选择数据集的一部分进行测量。

置信区间

知道上下限, 衡量对该值存在于该置信区间范围内信心的大小。

Bootstrapping算法可以帮我们找到表达信心的值。必须是又放回的采样 否则bootstrap与样本集一样。

step1 
		根据原始数据总体创建一个样本集
step2
		设计对样本的重采样用以生成一些新的数据
		新数据集中的每一个被称为bootstrap

假设总体数据集的均值为500,样本均值为490 试求在多大程度上信任490
如果要找80%的置信区间 只需要去掉最低的10%以及最高的10% 从图上可以求出有80%的信心确定总体均值在410~560.
在这里插入图片描述

高维空间

在庞大的空间中 每条数据都是单独的点

相关性和协方差

相关性

分为正相关和负相关
A增加减少的量都是B增加减少的量的n倍。这种关系被称为共变
相关系数: -1~1
2个变量 单相关 多变量 多重相关
有一堆变量 只研究两个 则称为偏相关
完全正负相关1~-1称这两个变量为线性相关

协方差

用协方差来衡量这两个变量之间的这种联系强度。

x变大,y随之变大,称为正协方差
x变大, y随之变小,称为负协方差
x与y无相关变化 则称为协方差为0

Ansombe四重奏

四组数据 不相同 但是有相同的四个值均值、标准差、相关系数、最佳拟合值
不要认为统计数透露了关于任何一组数据的全部情况,得到了一组数据的统计信息是一个很好的起点,但是统计数据不能告诉我们想知道的一切 想要利用好数据需要理解它

2023年11月17日11:32:59

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

李少女_辣辣妹

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值