第二章随机性与基础统计

李少女_辣辣妹

已于 2023-11-26 15:40:32 修改

阅读量25

点赞数

分类专栏：深度学习：从基础到实战文章标签：人工智能深度学习机器学习

于 2023-11-17 11:34:05 首次发布

本文链接：https://blog.csdn.net/weixin_44380216/article/details/134457888

版权

深度学习：从基础到实战专栏收录该内容

6 篇文章 0 订阅

订阅专栏

常用“平均值”：均值众数中位数

概率分布函数

均匀分布
基本均匀分布除了0 ~ 1之间，其他区域的取值都是0 0~1间的取值为1
基本特性只能得到0~1之间的数；0 ~1之间的每个数字取到的可能性是等可能得
创建均匀分布的库函数会允许我们去选择非零区域开始和节数的地方，而非固定在0~1
除了默认的0~1的选项最受欢迎的是-1 ~1
正态分布（高斯分布/钟形曲线）
宽度无限但有时会将偏离中心店一定距离的值夹断（clamp）并假设超出该距离的部分为0 从而得到一个有限分布
使用正态分布的随机变量产生的值被称为正态分布集，有时也被称为正态偏差 我们也说他们你喝或者遵循正态分布。
每个正态分布有两个数字定义：均值、标准差
性质：均值同时是中位数也是众数
假设有1000个样本，那么- σ~ σ之间有680个样本；-2 σ~2 σ之间有950个，在-3 σ~3 σ之间有997个。
伯努利分布（返回值为0或1）
2种情况，若情况1的概率为p那么情况2的概率为1-p
多项式分布（类别分布）
多种类别是哪一类哪一类为1 其他为0
期望值（平均值）

抽样与放回

是否放回对于构建新数据集有影响

放回抽样（SWR）
我们可能会多次使用同一元素，整个新建立的数据集是原始数据集的一个副本
创建的心得数据集可以比原始数据集小，相同或者大。
无放回抽样（SWOR）
选择相互依赖，但每次被选中的概率不同

Bootstrapping 算法

通常会选择数据集的一部分进行测量。

置信区间

知道上下限，衡量对该值存在于该置信区间范围内信心的大小。

Bootstrapping算法可以帮我们找到表达信心的值。必须是又放回的采样否则bootstrap与样本集一样。

step1 
		根据原始数据总体创建一个样本集
step2
		设计对样本的重采样用以生成一些新的数据
		新数据集中的每一个被称为bootstrap

假设总体数据集的均值为500，样本均值为490 试求在多大程度上信任490
如果要找80%的置信区间只需要去掉最低的10%以及最高的10% 从图上可以求出有80%的信心确定总体均值在410~560.
在这里插入图片描述

高维空间

在庞大的空间中每条数据都是单独的点

2023年11月17日11:32:59

李少女_辣辣妹

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
第二章随机性与基础统计

随机数与基础统计学用以机器学习之前的数据抽取以及数据处理分析。
复制链接

扫一扫

专栏目录

第二章随机性与基础统计

概率分布函数

抽样与放回

Bootstrapping 算法

高维空间

相关性和协方差

相关性

协方差

Ansombe四重奏

第二章 随机性与基础统计

概率分布函数

抽样与放回

Bootstrapping 算法

高维空间

相关性和协方差

相关性

协方差

Ansombe四重奏

第二章随机性与基础统计