常用“平均值”: 均值 众数 中位数
概率分布函数
-
均匀分布
-
基本均匀分布 除了0 ~ 1之间,其他区域的取值都是0 0~1间的取值为1
-
基本特性 只能得到0~1之间的数;0 ~1之间的每个数字取到的可能性是等可能得
-
创建均匀分布的库函数会允许我们去选择非零区域开始和节数的地方,而非固定在0~1
-
除了默认的0~1的选项 最受欢迎的是-1 ~1
-
正态分布(高斯分布/钟形曲线)
-
宽度无限 但有时会将偏离中心店一定距离的值夹断(clamp)并假设超出该距离的部分为0 从而得到一个有限分布
-
使用正态分布的随机变量产生的值被称为正态分布集,有时也被称为正态偏差 我们也说他们你喝或者遵循正态分布。
-
每个正态分布有两个数字定义:均值、标准差
-
性质:均值同时是中位数也是众数
-
假设有1000个样本,那么- σ~ σ之间有680个样本;-2 σ~2 σ之间有950个,在-3 σ~3 σ之间有997个。
-
伯努利分布(返回值为0或1)
-
2种情况,若情况1的概率为p那么情况2的概率为1-p
-
多项式分布(类别分布)
-
多种类别 是哪一类 哪一类为1 其他为0
-
期望值(平均值)
抽样与放回
是否放回对于构建新数据集有影响
- 放回抽样(SWR)
我们可能会多次使用同一元素,整个新建立的数据集是原始数据集的一个副本
创建的心得数据集可以比原始数据集小,相同或者大。 - 无放回抽样(SWOR)
选择相互依赖,但每次被选中的概率不同
Bootstrapping 算法
通常会选择数据集的一部分进行测量。
置信区间
知道上下限, 衡量对该值存在于该置信区间范围内信心的大小。
Bootstrapping算法可以帮我们找到表达信心的值。必须是又放回的采样 否则bootstrap与样本集一样。
step1
根据原始数据总体创建一个样本集
step2
设计对样本的重采样用以生成一些新的数据
新数据集中的每一个被称为bootstrap
假设总体数据集的均值为500,样本均值为490 试求在多大程度上信任490
如果要找80%的置信区间 只需要去掉最低的10%以及最高的10% 从图上可以求出有80%的信心确定总体均值在410~560.
高维空间
在庞大的空间中 每条数据都是单独的点
相关性和协方差
相关性
分为正相关和负相关
A增加减少的量都是B增加减少的量的n倍。这种关系被称为共变
相关系数: -1~1
2个变量 单相关 多变量 多重相关
有一堆变量 只研究两个 则称为偏相关
完全正负相关1~-1称这两个变量为线性相关
协方差
用协方差来衡量这两个变量之间的这种联系强度。
x变大,y随之变大,称为正协方差
x变大, y随之变小,称为负协方差
x与y无相关变化 则称为协方差为0
Ansombe四重奏
四组数据 不相同 但是有相同的四个值均值、标准差、相关系数、最佳拟合值
不要认为统计数透露了关于任何一组数据的全部情况,得到了一组数据的统计信息是一个很好的起点,但是统计数据不能告诉我们想知道的一切 想要利用好数据需要理解它
2023年11月17日11:32:59