了解过度拟合和欠拟合
学会知道你的机器学习模型是过拟合还是欠拟合。
安迪·凯利在 Unsplash 上的照片
机器学习模型的真正有效性实际上取决于它在测试集数据上的表现。无论它在训练数据上做得多好,如果它在测试数据上表现不佳,该模型可能不太适合手头的任务。因此,在构建模型时,从性能角度来看,可能会发生三种情况:
- 模型过度拟合训练数据。
- 模型对训练数据的拟合不足。
- 该模型总体上非常适合该任务。
总的来说,我们想要的模型只能达到上面提到的第三点。另外两点对于一个机器学习模型是不好的。但是,如果我们不够小心,在开发模型时,经常会面临这两个问题中的一个。在本文中,我们将讨论过度适应或适应不足的确切含义。
模型过度拟合
对于受监督的机器学习任务,我们希望我们的模型在测试数据上表现良好,无论是分类任务还是回归任务。这种在测试数据上做得很好的现象在机器学习术语中被称为对测试数据的概括。因此,一个模型对测试数据的概括越好,这个模型就越好。但事情并不总是这样。因为有时模型可能会遇到过度拟合训练数据的问题。
当一个模型在训练数据上表现太好,但在测试数据上表现很差时,这意味着该模型过度拟合了训练数据。
模型过度拟合有几个原因。但总的想法是,当我们试图用明显不足的训练数据来拟合一个复杂的模型时,模型往往会过度拟合训练数据。因为模型会尝试在训练数据样本中捕获更复杂的模式。通过这样做,它最终选择训练数据的每个小的局部变化,而不是选择数据样本的更全局的结构,这对于模型在测试数据上很好地一般化是绝对必要的。
现在让我们看一个使用 Python 的 Scikit-learn 的实际例子。
在这个 Python 脚本中,一个 K-NN 分类器是用不同的K***(1,3,11)*** 的值训练出来的。该脚本将产生以下输出:
信用:谷歌 Colab
我们可以看到,当 K = 1 时,分类器对训练数据有 100%的准确率。但是测试数据的准确性明显较低。因为分类器对测试数据的概括不如对训练数据的概括,这意味着分类器可能过度拟合训练数据。然而,随着 K 的值增加 (K = 3,11) 分类器的准确度在训练数据上降低,但在测试数据上增加。这意味着当 K 增加时,分类器在测试数据上概括得更好。虽然这并不意味着如果我们不断增加 K ,测试数据的准确性也会不断提高。在某一点上,它将再次开始降低测试数据的准确性,对此我们必须小心。
模型欠拟合
正如我们已经讨论过的,当模型过度拟合时,它往往在训练数据上表现得太好。嗯,模型欠拟合是完全相反的。
当模型欠拟合时,它很可能在训练数据上表现很差。因此,该模型也不能很好地概括测试数据。
拟合不足的模型过于简单,甚至无法提取训练数据中存在的常见模式。因此,很明显,该模型在测试数据上的表现也会很差。下面的 Python 脚本为******【7,15,55】的不同值训练了一个 K-NN 回归模型:
该 Python 脚本将产生以下输出:
信用:谷歌 Colab
这里我们使用了 R (r 平方)回归得分来衡量模型的性能。此 R 分数介于 0 到 1 之间,包括 0 和 1。 R 分数越高,模型越好。我们可以看到,当 K 从 7 增加到 15 时,训练分数降低但测试分数略有增加。然而,当 K 从 15 变为 55 时,列车得分明显下降。当 K = 55 时,表示模型欠拟合。结果测试分数也明显少于其他型号 (K = 7,15) 。
非常合适
*既然我们已经讨论了什么是过度适应和不适应,接下来合乎逻辑的事情就是问,*那么什么是好的适应呢!确切地说,没有固定的标准来决定一个特定的契合度是好是坏。在理想情况下,我们希望模型在训练和测试数据上的误差都是 0%。但是说起来容易做起来难。所以我们能做的就是在训练机器学习模型时,在欠适应和过适应之间找到一个最佳平衡点。既不欠拟合也不过拟合并且对训练尤其是对测试数据都具有相当好的准确性的模型可以被认为是对手头任务的潜在良好适合。
希望你喜欢这篇文章。感谢阅读。
理解卷积神经网络中的参数共享(或权重复制)
技术和解释
参数共享或权重复制是深度学习研究中可以忽略的主题领域。理解这个简单的概念有助于更广泛地理解卷积神经网络的内部结构。
亨特·哈里特在 Unsplash 上的照片
卷积神经网络(CNN)具有能够对通过网络馈送的图像的仿射变换保持不变的特性。这提供了识别图像中偏移、倾斜或轻微扭曲的图案的能力。
由于 CNN 架构的三个主要属性,引入了仿射不变性的这些特征。
- 局部感受野
- 共享权重(参数共享)
- 空间子采样
在本文中,我们将探索共享权重并理解它们的目的以及它们在 CNN 架构中的优势。
这篇文章面向所有水平的练习机器学习或更具体地说深度学习的个人。
介绍
让我们首先在脑海中创建一个 CNN 中单个卷积层的图示。
由 Clarisse Croset 在 Unsplash 上拍摄的照片
CNN 中的卷积层( conv 层)包含一组单元,也可以称为神经元。
conv 层还包括层内的几个过滤器,这是一个预定义的超参数。
层内的过滤器的数量指示由 conv 层创建的作为下一层的输入的激活/特征地图的输出体积的深度维度。
这些过滤器中的每一个都具有设定的宽度和高度,其对应于该层中单个单元的局部感受野。作用于输入数据的过滤器产生卷积层的输出,即特征图。
在 CNN 的训练阶段,滤波器内的权重值是可学习的。卷积层的输出维度具有深度分量,如果我们划分输出的每个片段,我们将获得特征图的 2D 平面。在单个 2D 平面上使用的滤波器包含由在同一平面上使用的所有滤波器共享的权重。
这样做的好处是,我们可以在输入数据的其他部分保持在输入数据的一部分中使用的相同特征检测器。
卷积层的输出是一组特征图,其中每个特征图是单元内的固定权重参数和输入数据之间的卷积运算的结果。
卷积神经网络层的一个基本特征是其特征图能够反映对通过输入层输入的输入图像进行的任何仿射变换。
因此,对输入数据进行的任何移动、倾斜或定向,要素地图都会提供一个输出,该输出会根据输入数据所受的量进行移动、倾斜或定向。
将理论付诸实践
本节的目标是揭示卷积神经网络中出现的权重共享的好处。
我们将在两种流行的 CNN 架构的第一卷积层中,推导出不具有权重共享和具有权重共享的可训练权重的数量: LeNet 和 AlexNet 。
下面是要采取的步骤:
- 获得 conv 图层的输出宽度
(输入大小宽度—滤波器大小+(2 *填充)/步距)+ 1 =卷积层的输出宽度
2.计算 conv 层内神经元/单元的数量
3.计算不带权重分配的训练参数(包括偏差)的数量
4.计算权重分配的训练参数数量(包括偏差)
下表描述了来自 AlexNet 和 LeNet CNN 架构的信息将用于导出卷积层内的训练参数/权重的数量。
显示 CNN 架构的不完整属性的表格
AlexNet
- conv 图层输出宽度:
=((227–11)/4)+1
=55(conv 图层输出宽度)
2.conv 层内神经元/单位的数量
=输出高度输出宽度特征地图数量
= 55x55x96 (conv 输出音量)
*=*29.04 万辆
3.conv 层内训练参数或权重的数量(无权重分配)
*= 290400 (11 * 11 * 3)+1 偏置)
=105,415,600
4.具有重量共享的训练参数或重量的数量(具有重量共享)
*= 96 (11 * 11 * 3)+1 偏置)
= 34,944 重量
LeNet
- conv 图层输出宽度:
=((28–5)/1)+1
=24(conv 图层输出宽度)
2.conv 层内神经元/单元的数量
=输出高度输出宽度特征地图数量
= 24x24x6 (conv 输出音量)
= 三千四百五十六台
3.conv 层内的训练参数或权重的数量(没有权重共享)
*= 3456 (5 * 5 * 1)+1 偏差)
=89,856
4.具有重量共享的训练参数或重量的数量(具有重量共享)
*= 6 (5 * 5 * 1)+1 偏置)
= 156 重量
显示 CNN 架构完整属性的表格
让我们一起来。
克林特·王茂林在 Unsplash 上拍摄的照片
很明显,通过参数共享,我们可以减少 conv 层中的权重数量。
参数共享用于网络内的所有 conv 层。
参数共享减少了训练时间;这是减少反向传播期间必须发生的权重更新次数的直接优点。
重申参数共享发生在从过滤器和来自 conv 层中的平面内的单元的输入数据之间的卷积结果生成特征图时。该层平面内的所有单元共享相同的权重;因此,它被称为权重/参数共享。
我希望这篇文章对你有用。
要联系我或找到更多类似本文的内容,请执行以下操作:
- 订阅我的 YouTube 频道 即将上线的视频内容 这里
- 跟我上 中
- 通过 LinkedIn 联系我
想过为什么卷积神经网络中的所有神经元都没有连接起来吗?
towardsdatascience.com](/understand-local-receptive-fields-in-convolutional-neural-networks-f26d700be16c) [## 机器学习硕士(不会)教你什么
关于攻读机器学习高级学位的常见误解
towardsdatascience.com](/what-a-masters-in-machine-learning-wont-teach-you-b84e5aac8837)
用机器学习理解全球经济模式
一种层次聚类方法
葆拉·梅在 Unsplash 上的照片
从很小的时候起,我们对世界的心理描绘就已经锚定在某种形式的全球地图上(就像上面的墨卡托投影),任何两个组成国家的分离都是基于地理边界的。虽然两个国家可能在地理上相距很近,但在某个时间点上界定其各自经济体制的特征可能大相径庭。
例如,如果我们看看日本和中国,这两个被广阔的东海隔开的邻国,在 21 世纪初,我们会发现日本经济在“失去的十年”的后果中萎靡不振,这一时期的特点是股票和房地产价格泡沫的破裂,在未来许多年里削弱了增长和通胀。相比之下,中国在同一时期收获了 70 年代末开始的经济自由化的好处,并成为世界上增长最快的经济体之一。
这种对比再明显不过了,但它说明了一个重要的观点;要理解全球经济的状态和关系,我们必须比地理上的联系更深入。随着世界紧张地徘徊在衰退的边缘,这种理解的需要从未像现在这样切题。因此,我们在一种称为使用 r 的分层聚类的无监督机器学习算法的帮助下完成这项任务。
分层聚类
梅尔·普尔在 Unsplash 上的照片
分层聚类是一种无监督的机器学习算法,它基于公共属性将相似的观察值分组在一起。这些属性通常用距离度量来概括,如欧几里德距离、曼哈顿距离或相关距离。在第一种情况下,将两个最接近的点连接在一起以形成聚类,这重复发生,将最接近的点或聚类连接在一起,直到只剩下一个包含整个样本空间的大聚类。所得到的结构可以被可视化为如下的树状图:
为了实现这种理解经济的方法,我们采用定义每个经济状态的重要宏观经济变量的向量,并计算它们之间在欧几里得空间中的成对距离。我们称之为经济距离。直观地说,在这个框架中,彼此距离最近的国家/地区被认为在经济状况或发展方面是相似的。为了计算经济距离,我们将使用经济学人网站中的一组“金融指标”。变量包括重要的宏观经济数据点,如增长、通货膨胀、失业、工业生产、通货膨胀、预算平衡。数据确实需要一些争论,清理后的 csv 文件可以在这里找到。在 R 中实现,如下所示:
#Calling required librariesrequire(dendextend)##library for visualizing hierarchical Clustering
require(ggplot2) ##for plotting
require(maggritr) ##for the forward pipe operator %>% for nicer codeecon<-read.csv('fin_indicators0219.csv')#naming the rowsecon.df<-econ[,-1]
rownames(econ.df)<-econ[,1]#scaling variables for use in calculation of Euclidean distance econ.df.scaled<-scale(econ.df)#creating pairwise Euclidean Distance Matrixecon.dist<-dist(econ.df.scaled, method='euclidean')#creating hierarchical clustering objectecon.hc<-hclust(econ.dist)#plottingplot(econ.hc)#let's make it a little bit nicer
#by creating a dendrogram objectdend <- econ.hc%>%
as.dendrogram %>%
set("branches_k_color", k=10) %>% set("branches_lwd", 1.4) %>% set("labels_cex", c(0.5)) ##arbitrary k value#now we plot using ggplot2ggd1 <- as.ggdend(dend)
ggplot(ggd1, horiz = TRUE, theme = NULL) +
ylab("Distance")+
xlab("Countries") +
ylim(c(12.5,-3)) +
theme_grey()
截至 2019 年 2 月的经济聚类,虽然《经济学人》有更多的国家/地区,但为了便于计算,na 值被省略
通过直观的观察,我们可以很快发现地理并不一定是经济相似性的主要驱动力。虽然欧元区/欧元区内的国家似乎确实聚集在一起,但这是意料之中的。他们被一个单一的货币联盟和一系列允许金融和劳动力资本自由流动的条约所束缚。因此,摩擦的消除体现在一个更同步的经济状态,这是该地区的象征。然而,我们也知道这并不总是正确的,案例和要点是 2011 年的欧元主权债务危机,当时一些成员国无力再融资债务,威胁到欧盟的分裂。在这些情况下,我们可能会使用层次聚类来帮助确定这种情况何时开始发生,因为通过失业率和长期利率等指标的上升以及工业生产和增长的下降,风险国家开始与全球经济的其他部分脱离。
其他有趣的关系包括新加坡比法国、意大利或西班牙更接近瑞士。从我们对这两个国家的直观了解中,我们知道它们的相似之处在于它们经济的总体稳健性,以及它们作为各自地区金融和商业中心的声誉。土耳其和阿根廷离剩下的集群最远。这代表了两国在努力应对高通胀、高失业率和经济增长放缓时所面临的经济不确定性程度。
与“基线”的比较
杰森·登特在 Unsplash 上拍摄的照片
为了测试按经济距离进行聚类是否会产生明显不同的结构,我们可以基于地理距离创建一个类似的层次聚类树图,并可视化聚类如何变化。
#altering the sizing of labels and thickness of cluster lines of the #last dendrogram objectdend <- econ.hc%>%
as.dendrogram %>%
set("branches_k_color", k=10) %>% set("branches_lwd", 2.4) %>% set("labels_cex", c(0.85))#reading in country by geo distance datacount.dist<-read.csv('country_dis.csv')rownames(count.dist) <- count.dist[, 1] ## set rownames
count.dist <- count.dist[, -1]#applying a root transformation to make reduce order of magnitude #for pleasant plotting, this still preserves relationships between #countriescdist<-as.dist(sqrt(count.dist))
c.hc<-hclust(cdist, method = 'single')dend2 <- c.hc%>%
as.dendrogram %>%
set("branches_k_color", k=10) %>% set("branches_lwd", 2.4) %>% set("labels_cex", c(.85))#plot tanglegram to visually inspect differencestanglegram(dend, dend2, main_left = "Economic Distance", main_right = "Geograhic Distance", margin_inner = 6)
不同的距离度量如何影响经济体之间的关系,资料来源:CEPII(geo data),
上面的七巧板显示了随着距离度量的变化,国家和地区在等级中的位置是如何变化的。黑线表示它们的聚类结构已经发生了变化,而彩色线则相反。我们观察到,从一种方法转到另一种方法,只有秘鲁和哥伦比亚仍然聚集在一起(绿线),这有效地表明,在试图理解全球经济时,经济距离产生了一个独特的和更丰富的表示。
虽然这种方法确实为我们提供了一个起点,但更有用的是能够查看集群如何以及是否随时间发生了变化。这种变化可以通过两种方式发生,一是通过总体等级聚类结构的扁平化,表明全球经济可能变得更加同步(宏观)或更好或更坏;二是通过组成国家之间的聚类(微观)。
跨时间比较
到目前为止,我们在分析中一直使用 2019 年 2 月的经济变量,现在我们为 2020 年 3 月的相同地区引入相同的变量集。我们将用另一个七巧板来想象这个。
econ20<-read.csv('fin_indicators0220.csv')#naming the rowsecon.df20<-econ20[,-1]
rownames(econ.df20)<-econ20[,1]#scaling variables for use in calculation of Euclidean distanceecon.df.scaled20<-scale(econ.df20)#creating pairwise Euclidean Distance Matrixecon.dist20<-dist(econ.df.scaled20, method='euclidean')#creating hierarchical clustering objectecon.hc20<-hclust(econ.dist20)dend3 <- econ.hc20%>%
as.dendrogram %>%
set("branches_k_color", k=10) %>% set("branches_lwd", 2.4) %>% set("labels_cex", c(.85))tanglegram(dend, dend3, main_left = "02/19", main_right = "03/20", margin_inner = 6)
截至 2019 年 2 月 cs 03/20 的经济集群
这一次我们可以看到,在一年的时间里,全球经济格局发生了巨大变化,其中明显的混淆变量是 COVID19 的传播。仅有的仍然聚集在一起的国家是印度尼西亚、印度和菲律宾,它们通常被认为是新兴市场国家。通过研究,我们还发现,土耳其已经脱离了阿根廷,这是该国从一年前的货币危机中复苏的结果,而阿根廷仍是经济最不相似的国家,因为它徘徊在又一次违约的边缘。其他明显的观察结果包括,最相似的区域变得“更加接近”,这也可能是由于当前疫情局势造成的外部冲击,其影响波及全世界。随着全球各国继续抗击其蔓延,经济影响已经不分青红皂白。几乎所有受影响的地区都经历了增长收缩、消费减少、创纪录的失业率以及某种形式的货币或财政刺激。经济距离很好地涵盖了这些措施中的大部分。
结论
虽然层次聚类缺乏其监督学习对应物的预测能力,但它仍然是探索基础数据中的模式和结构的重要工具,这与经济距离相结合,在形成对全球经济的看法方面形成了强大、直观和可解释的框架,无论最终目标是社会、政策还是金融性质。
免责声明 : 本帖纯属个人观点和看法的表达。它不代表建议,也不反映我的雇主的观点。
深度学习的指针网络
这篇文章讨论了 Oriol Vinyals,Meire Fortunato 和 Navdeep Jaitly 的**“指针网络”。这项工作提出了一种生成可变大小输出序列的神经架构,该输出序列是输入序列的标记/索引序列。因为输出序列的长度取决于输入序列的大小,所以它不能由基于 RNN 的序列到序列模型和神经图灵机来解决。指针生成器网络被应用于解决各种组合优化和组合搜索问题,例如著名的平面旅行商问题(TSP)、Delaunay 三角剖分、凸包问题和排序变长序列。指针网络现在还被应用于文本摘要问题,以从文档中提取句子,如在“具有强化选择句子重写的快速抽象摘要”**中由延-陈春和莫希特·班萨尔所提到的。这些网络很好地概括了序列长度,超出了网络的训练。
指针网络可以说是由 Bahdanau et al. 2015 的注意机制衍生而来。为了理解指针网络,让我们首先理解序列对序列模型,基于注意力的模型序列对序列模型,然后最后是指针网络。
基于 RNN 的序列间模型:
在序列到序列模型中,我们使用两个 rnn(LSTM/GRU ),一个编码器编码输入序列,另一个供解码器产生输出序列。考虑一个具有四个点(P1、P2、P3 和 P4)的凸包的例子,如下图所示。
{图 1}:基于编码器(蓝色)、解码器(紫色)的序列对序列模型,用于具有四个点的凸包问题
在该图中,带有输入序列(*、【易】)*的蓝色方框代表编码器,紫色方框代表解码器。编码器的最后一个隐藏状态输出和“→”开始令牌被馈送到解码器模型的第一个时间步长。然后,对于下一个时间步长,来自前一个时间步长的输出连同上一个时间步长的隐藏状态一起被馈送,以产生当前时间步长的输出。在这种情况下,时间步长 T0 的输出[“1”],作为输入提供给下一个时间步长,以产生输出[“4”]。从图中我们可以看到,输出序列完成的凸包将是[“1 “,” 4 “,” 2 “,” 1”]。
{方程 1}:参数模型的条件概率方程(RNN)
在上面的等式中,Pi={P1,P2…Pn}是“n”个向量的序列,Ci={C1,C2…Cn}是从 1 到 n 的索引序列。在上面的图 1 中,“n”将是 4。
如等式 1 所示,RNN (LSTM/GRU)可用于模拟条件概率函数。RNN 在每个时间步长“I”被馈送 Pi,直到到达序列的结尾,其由“←”结束标记。
在这种类型的序列模型中,我们需要为序列的“n”长度的不同值训练单独的模型。
注意力网络
上面介绍的标准序列到序列模型通过采用上一时间步的隐藏状态,使用输入序列的固定表示来生成输出序列。固定描述限制了可以流经生成解码器 RNN 模型的信息量和计算量。因此,为了解决这个问题,Bahdanau et al. 2015 提出了注意力网络。在基于注意力的顺序模型中,通过给输入标记赋予权重,在解码器的每个时间步长形成上下文向量。通过将注意力权重乘以每个输入标记的隐藏状态表示并对它们求和来计算该上下文向量。有几种方法来计算注意力权重,如训练神经网络来并行计算序列到序列模型、点积和缩放点积的这些权重。
让我们将编码器隐藏状态表示为(e1,e2,e3 …,en)并将解码器隐藏状态表示为(d1,d2,d3 …)。,dn)。时间步长“I”的上下文向量的计算如下式 2 所示。
{等式 2}:上下文向量计算
这里,softmax 函数将长度为“n”的输入序列上的向量“u”归一化为输入序列的注意力权重。注意力权重乘以每个编码器隐藏状态“e”并求和以形成上下文向量。
关于注意力模型的更多细节可以从这篇博文中找到。
它们是自然语言处理、机器翻译和大多数最新技术(SOTA)领域的最新发展
towardsdatascience.com](/attention-networks-c735befb5e9f)
在大多数顺序模型上,该模型的性能明显优于普通的顺序对顺序模型。但是它不适用于输出字典大小依赖于输入的问题。
指针网络
指针网络可以被认为是注意力模型的简单扩展(而不是缩减)。
{图 2}:图 1 中凸包问题的指针网络解。
在每个解码器时间步骤中,生成网络产生一个向量,该向量调制输入上基于内容的注意力权重。这些权重是通过采用字典大小等于输入序列长度的 softmax 运算来计算的。
在指针网络中,这些注意力权重/掩码不再用于计算下一时间步的上下文向量。这些权重被认为是指向输入序列的指针。具有最高权重的输入时间步长被认为是该解码器时间步长的输出。
{方程式 3}:指针计算
从等式 3 可以看出,对“u”的 softmax 运算不再用于计算上下文向量,以作为信息馈送给当前的解码器步骤。softmax 操作的输出指向具有最大值的输入令牌。
考虑解码器步骤的第一步的输出是“1 ”,如图 2 所示。然后,对于下一个时间步长,输入[X1,Y1]的相应输入令牌表示连同先前时间步长的解码器隐藏状态表示被馈送到网络,以计算当前时间步长的隐藏状态表示。当前步骤的输出是“4”,因此[ X4,Y4 进入下一步骤的输入。
应该理解,简单的 RNN 序列到序列模型可以通过训练直接指向输入目标索引来解决这个问题。然而,根据推论,这种解决方案并不考虑输出映射回输入索引的约束。如果没有这些限制,在更长的序列中,预测必然会变得模糊。
指针网络的应用
1)文本摘要
从实验中可以看出,结合了抽象和提取方法的研究论文比只使用一种方法训练的论文给出了更好的总结结果。
图 3 显示了通过结合提取代理和抽象的文本摘要算法的结构图。提取器使用指针网络从文档的完整句子集中提取一系列独特的句子。
2)凸包问题
在计算几何中,寻找有限数量的点的凸包是一项众所周知的任务,并且有几种精确的解决方案可用。为了使用完全数据驱动的方法来解决这个问题,实验发现指针网络比传统的 RNN 模型给出更好的结果。
在图 4 中,点序列 P[2,4,3,5,6,7,2]代表凸包的边界。指针网络以 P[1,2,3…10]为输入,Cp[2,4,3,5,6,7,2]为输出进行训练。由于输出指向输入序列的索引,指针网络模型提供了比其他神经网络模型更好的结果。
3) Delaunay 三角剖分
平面上 P 个点集的 Delaunay 三角剖分是这样一种三角剖分,使得每个三角形的每个外接圆都是空的;即在其内部没有来自 P 的点。
[图 5]: Delaunay 三角剖分
在上面的图 5 中,每组三个点[(1,2,4),(1,4,5),(1,3,5),(1,2,3)]代表点集 P1 的三角剖分集。序列的顺序在这里并不重要;它只是按字典顺序写的。指针网络可以在这里被训练,因为我们知道索引的输入和输出序列。
4)旅行商问题
TSP 出现在理论计算机科学的许多领域,并且是用于微芯片设计或 DNA 测序的关键算法。琐碎的 TSP 问题是寻找恰好访问每个城市一次并返回起点的最短可能路线。假设两个城市之间的距离在每个相反的方向上是相同的。
输入-输出对具有与凸包问题类似的格式。在一个平面中有“n”个不同的城市或点,我们必须在最短的时间内到达每个城镇。输入序列将是杂乱的“n”个点,没有任何顺序,输出序列将是相同点的有序序列,表示在最短时间内行驶。可以通过取“n”的不同值的输入和输出来训练指针网络。还发现指针网络甚至对于它没有训练过的“n”的那些值也能很好地推广。
引文
Oriol Vinyals,Meire Fortunato 和 Navdeep Jaitly 的指针网络
由延-陈春和莫希特·班萨尔用加强选择句子重写的快速摘要
有用的链接
指针网络的张量流实现。支持多线程数据管道,以减少 I/O 延迟。训练一个…
github.com](https://github.com/devsisters/pointer-network-tensorflow) [## shirgur/PointerNet
指针网络的 Pytorch 实现。通过在…上创建帐户,为 shirgur/PointerNet 的发展做出贡献
github.com](https://github.com/shirgur/PointerNet) [## ChenRocks/fast_abs_rl
这个存储库包含我们的 ACL 2018 论文的代码:具有增强选择的快速抽象概括…
github.com](https://github.com/ChenRocks/fast_abs_rl)
理解政治推特
利用推特情绪分析了解全球政治氛围。
邓肯·格拉布斯和梅根·曼迪
Kon Karampelas 在 Unsplash 上拍摄的照片
当你想到政客和推特时,很可能会想到唐纳德·川普总统。自 2015 年开始竞选以来,特朗普因许多人所说的贬损、负面和有点煽动性的推文而臭名昭著。事实证明,即使只有 280 个字符,他也可以传达一系列的情感,“事实”,以及,信不信由你,观点。看看 NYT 的这篇文章,你会明白我们在这里的意思。说真的,甚至 Vox 也对此进行了研究,因为特朗普发了很多推文,他们可能真的在那里。
在过去的十年里,政治推特账户的使用量激增。如今,似乎每个政治领导人和他们的整个家庭都有一个 Twitter 账户,他们都觉得有必要在平台上与我们所有人分享他们的观点。事实上,许多领导人使用 Twitter 作为他们与公众沟通的主要方式,而不是地址或简讯。然而,这引起了一些有趣的问题。推文通常没有经过审查,当来自“个人”账户而不是“官方政府运营的通信”时,它们可能会非常两极分化和/或有问题。
所有这些让我们思考——我们能测量政治家和世界领导人在 Twitter 上的交流方式吗,那会是什么样子?
研究问题
我们想调查世界各地不同的领导人是如何使用 Twitter 的。具体来说,我们围绕以下问题进行分析:
- 在 Twitter 上,某些世界领导人/政治家总体上比其他人更积极吗?
- 随着时间的推移,对某些组织/主题的看法发生了怎样的变化?某些领导人改变立场了吗?
- 政治推特中使用频率最高的关键词是什么?这些在不同国家有什么不同?
数据
资料来源:梅根·曼迪
我们的第一步是收集数据。我们知道,我们希望在一段较长的时间内收集世界各地各种领导人的推文。我们决定主要关注在任的国家元首,尤其是如果这个国家不是说英语的话。考虑到这一点,我们登陆了世界上一些最大的经济和政治强国的 12 个账户,并查看了过去 5 年 的所有推文,从 2015 年 1 月 1 日到 2019 年 12 月 31 日。 我们选取了以下几位领导人进行分析: 乔·拜登、伯尼·桑德斯、唐纳德·川普、贾斯廷·特鲁多、安德烈斯·曼努埃尔·洛佩斯·奥夫拉多尔、鲍里斯·约翰逊、埃马纽埃尔·马克龙、本杰明·内塔尼亚胡、穆罕默杜·布哈里、西里尔·拉马福萨、纳伦德拉·莫迪、斯科特·莫里森 。收集这么多数据绝非易事。首先,我们尝试了 Twitter 的本地 API,但很快意识到他们对一个人可以下载多少数据有非常严格的限制。经过一番研究,我们决定使用优化的 Get Old Tweets 3 库。它作为 Twitter API 的包装器,允许几乎无限制的 tweet 下载,而且它已经用 Python 编写了!我们总共下载了超过 70MB 的原始推文数据,这些数据都可以在我们的库中找到。
下载完数据后,我们专注于清理推文并翻译它们。我们用正则表达式删除了 URL、@标签和图片链接,并将所有推文规范化为小写。然后我们用谷歌翻译 API 翻译非英语推文。
我们如何清理推文的代码和正则表达式
分析
首先,我们需要一些基线信息。我们测量了这 5 年间每位领导人发微博的次数,以及平均微博长度(以字符数表示)。唐纳德·特朗普发的微博最多并不奇怪,但我们惊讶地发现,平均而言,乔·拜登发的微博最长。虽然 Twitter 的每条推文有 280 个字符的限制,但几乎每位领导人的平均字符数都低于 200 个。看起来最常见的方法是多发布短推,少发布长推。
接下来,我们想看看最有影响力的英语客户使用的一些关键词。我们将这种分析局限于英语帐户,因为在翻译过程中,文本数据可能会发生很大变化,无法准确反映单词的用法。词云是一种很好的方式,可以很容易地将某些关键词在大量文本中突出出来。我们使用了 WordCloud Python 库,通过输入原始推文数据来生成图像。
我们如何生成单词云的示例代码
使用翻译 API 翻译不同语言的示例代码
与其他领导人相比,特朗普提到自己的名字要多得多。莫迪和约翰逊非常频繁地提到自己的国家。
在收集了基线数据后,我们将注意力转移到了情感分析上,并决定使用 TextBlob Python 库。这为我们提供了每条推文的两个数据点, 极性 和 主观性 。极性值的范围在-1 和 1 之间,其中分数 1 表示文本通常为正,分数-1 表示文本通常为负。主观性得分更容易理解,范围从 0 到 1,其中 0 分是客观或事实陈述,1 分更多地属于个人观点、情感或判断。TextBlob 使用训练有素的 NLP 模型来计算这一点,该模型使用来自各种来源的人类标记的文本数据。
首先,我们比较了 2019 年最后 6 个月世界领导人的平均情绪得分。这一时间限制是由于翻译中的瓶颈。虽然我们有所有领导者 5 年的原始推文数据,但由于 API 的限制,我们只能翻译 6 个月的推文。
6 个月期间(2019 年 7 月 1 日至 2019 年 12 月 31 日)的推文数据
上面我们可以看到 没有一个 的领导者平均极性小于 0,这是个好消息。平均而言,我们的领导在推特上发布积极的事情!也就是说,存在着广泛的主观性。记住 0 主观性是最低的,指的是事实陈述。虽然主观性得分高于 0 并不意味着说谎,但它们确实意味着该文本在陈述一种观点或个人信仰。莫里森、莫迪和特朗普在这一类别中都得分很高。相比之下,特鲁多、奥夫拉多尔和拉马福萨的平均主观性很低。
“再过三天,新的一年。新的十年。可以肯定的是,未来十年,21 世纪出生的人将在国家进步中发挥关键作用。在今天的#MannKiBaat 活动中,我向印度的年轻人致敬,他们充满活力。”—纳伦德拉·莫迪
在所有世界领导人中,莫迪的极性最高。事实证明,他在推特上使用高度积极的方言来表达里程碑和未来的进展。
“我们看到反犹太主义和仇恨犯罪在上升。我们看到一个小孩因为是拉丁人而被撞倒。我们见过有人因为是犹太人而被刺伤。我们看到有人因为是穆斯林而被攻击。如果有一个团结起来反对偏见和种族主义的时刻,那就是现在。”—伯尼·桑德斯
另一方面,伯尼·桑德斯的极性较低,经常以更加消极中立的语气在推特上谈论美国面临的困境。
特定比较
数据来自 2015 年至 2020 年 5 年间的 700 条推文
绘制特朗普总统和拉马福萨总统的极性与主观性展示了两位领导人推文之间的明显差异。特朗普在过去 5 年的主观性和极性涵盖了极性和主观性的整个范围。虽然有一群推文被认为是极性中性的,主观性居中,但他的大部分推文是主观性较高的。相反,Ramaphosa 的推文大多集中在 0-0.5 的主观性范围内,这意味着它们更接近客观。
我们决定围绕政治账户的某些关键词/组织扩展我们的情感分析。为了了解政治家们是如何讨论一个普遍话题的,我们选择了关键词“贸易”为了获得关于组织观点的更具体案例,我们查看了 Trump 如何在推特上发布关于福克斯新闻频道和 CNN 的消息。
在查看关键词“贸易”时,我们比较了贾斯廷·特鲁多和川普的数据。作为邻国的领导人,他们之间有着悠久的贸易历史,包括北美自由贸易协定和美国管理认证协会,加拿大和美国在这个问题上的情绪是一个有趣的对比。特鲁多稳步地在推特上以积极的态度谈论贸易;而特朗普在贸易方面通常是消极或中立的。虽然不可能确定每条推文的确切内容,但我们确保排除了提到中国和 T2 贸易的推文。此外,我们发现特朗普推文的积极倾斜趋势与 USCMA 的签署之间存在相关性,us CMA 是他上任后立即推动的北美自由贸易协定的替代物。
毫无疑问,福克斯新闻频道和 CNN 吸引了不同的政治派别。福克斯新闻频道倾向于保守派和共和党,而 CNN 倾向于温和派/自由派和民主党全国委员会。在分析特朗普对这两家媒体的看法时,他的观点有明显的区别。川普一直在推特上对福克斯新闻频道持中立到积极的态度,正如人们所料,然而他的推特几乎总是对 CNN 持中立到消极的态度。
问题与改进空间
为了恰当地调查推特上 世界 领导人的情绪,选择一些用英语以外的语言发推特的政治家/国家元首(马克龙、洛佩斯·奥夫拉多尔、莫迪)是合乎逻辑的。然而,这带来了翻译的负担,由于对谷歌翻译 API 的请求限制,翻译最终比预期的更加复杂。我们试图为至少 8 个不同的账户翻译平均 2MB 的 twitter 数据,但是我们只被允许每台电脑每天翻译大约 100KB 的数据…不太理想。我们通过减少账户数量,限制分析的时间范围,从而减少需要翻译的推文数量,并利用 VPN,解决了这个问题。
我们如何从更大的数据集中缩小推文的日期范围的代码
然而,障碍并没有就此结束——在分析之前清理推文被证明是极其困难的。在一条推文中出现的符号(如@或#)和图片的 URLs 链接之间,很难区分哪些要从推文中清除,哪些要保留。我们希望尽可能简单地分析推文,但我们不想在这个过程中影响情感分析的准确性。
我们承认这一分析有改进的余地。从数据本身开始,我们分析的用户都是人工选择的。这些用户中的一些人比其他人发的微博多得多,所用语言的差异都使分析变得复杂。随着推文翻译、分析的时间范围和数据量更加一致,我们可以在未来获得更精确的见解。
结论
虽然我们的分析并不完美,但我们惊讶于从这些数据中可以获得如此多的洞察力。世界各国领导人在推特上表达的情绪存在明显的、可以解释的差异。无论是在贸易、政策还是世界大事上存在分歧,都可以通过推特情绪记录下来。如果有什么不同的话,这表明推特越来越多地反映了一个政治家真正的信仰,有时比任何其他来源都更具启示性。
感谢阅读!如果你想查看所有的源代码或数据,你可以在 GitHub 这里 查看。
了解投资组合优化
卢卡斯·布拉塞克在 Unsplash 上的照片
从概念上理解优化投资组合意味着什么
来自《走向数据科学》编辑的提示: 虽然我们允许独立作者根据我们的 规则和指导方针 发表文章,但我们并不认可每个作者的贡献。你不应该在没有寻求专业建议的情况下依赖一个作者的作品。详见我们的 读者术语 。
量化金融(至少在投资组合管理方面)就是寻找最优投资组合。对于给定的风险水平,我们希望确保获得尽可能多的回报。
在定量金融学中,风险被视为一种资源。将你的投资组合暴露在风险中会随着时间的推移产生回报。换句话说,预期回报是我们承担不确定性(围绕通货膨胀、经济等的不确定性)所得到的补偿。).
有几件事要记住:
- 投资回报的风险和不确定性传统上由其历史回报的标准差(也称为波动性)来表示。
- 风险和收益之间存在近似的正相关关系。一项资产的波动性越大,其历史回报率通常就越高。
- 然而情况并非总是如此。有一些波动性很大的资产,相对于其他波动性类似的资产,其已实现回报一直乏善可陈。回报率较低的一个潜在原因是,这些资产还有其他价值,比如与股市的相关性较低。随着股市波动而波动(并提供正预期回报)的投资因其对冲能力而备受青睐。
我在下面的文章中深入探讨了投资风险,所以如果你想深入研究,请读一读:
关于我们如何对投资风险建模以及这是否有意义的哲学探索
towardsdatascience.com](/understanding-investment-risk-3882c58e00e0)
理解投资组合优化的类比
如果你只有一天时间去东京旅游(之前从未去过),并且你需要为这一天制定一个行程,你会怎么做?你可能会从列出可能的活动开始。然后你会挑选四五个可能是最有趣的活动。
埃里克·伊斯曼在 Unsplash 上的照片
但是对东京不熟悉,你担心你可能会尝试一项活动而不喜欢它——那会浪费你宝贵的时间。但是你也想尝试一些新的东西。做一些你已经在家做过的事情(比如在咖啡馆阅读)是一种乐趣,但是没有潜力变得超级有趣。做一些完全新奇的事情可能会非常有趣,但也可能会很糟糕。
因此,对于每一项活动,你不仅需要考虑它可能有多有趣(预期回报),还要考虑它最终变得不太有趣的风险(不确定性)。
你也可以选择彼此不相关的活动。因为如果你最终一遍又一遍地做同一类型的活动,并且你发现它实际上一点也不有趣,那么你的一天就会被毁了。因此,多种多样的活动类型会让你更有可能最终获得快乐。
因此,我们可以将您的旅程创建过程总结如下— 您希望创建一篮子活动,根据您的个人风险承受能力(您个人对新体验和熟悉体验的渴望)最大化您可能获得的乐趣。
您评估和权衡一项活动与其他活动的方式如下:
- 权衡每项活动本身的潜在乐趣和你对其乐趣的不确定性。
- 将每项活动与其他活动进行权衡,确保你有多种活动类型(多样化)。例如,你不会希望每项活动都涉及食物(以防你发现你不喜欢日本食物)。此外,你吃得越多,越饱,下一餐就越难享受。换句话说,你希望各种活动之间的相关性低,这样做一项活动不会影响你对下一项活动的享受。
一旦你完成了,假设你付出了一些努力,你可能会相信你的最终清单最大化了你那天开心的可能性。
简而言之,这就是投资组合优化—
对于给定的风险水平,我们希望最大化我们投资组合获得正回报的概率。
我们通过筛选金融资产来做到这一点,就像我们对活动所做的那样:
- 通过权衡他们的预期回报和波动性(记住波动性是我们估算风险的方式)。相对于波动性而言,预期回报越高,我们就越确定投资的回报随着时间的推移将是正的。
- 通过考虑资产收益之间的相关性。同等条件下,我们希望资产尽可能不相关。这使多样化的好处最大化。下一节将详细介绍我们为什么关注多元化。
多样化的好处
多样化有时被称为经济学和金融学中唯一的免费午餐。要了解原因,让我们举个例子。
如果我们持有一只股票 100 美元,预期在下一年回报 10%,那么我们的预期回报是 10 美元。如果我们再增加 100 美元的另一只股票,它的预期回报率也是 10%,那么我们 200 美元的投资组合的回报率现在翻了一番,达到了 20 美元。
相关性= 1 的情况
双资产投资组合的投资组合风险(标准差)可以计算如下:
**stdev =
sqrt(w1^2*stdev1^2 + w2^2*stdev2^2 + 2*w1*w2*p*stdev1*stdev2)**where
w1 is weight of stock 1
w2 is weight of stock 2
stdev1 is standard deviation of stock 1
stdev2 is standard deviation of stock 2
p is correlation between stock 1 and stock 2
假设我们投资组合中的两只股票的标准差都是 10%。
因此,当我们只有 100 美元投资于一只股票时,我们投资组合的风险是 100 美元* 10% = 10 美元。这意味着我们预期我们的回报是 10 美元,但是围绕着它有一个不确定的圆锥。
不确定度的宽度由其西格玛(也称为标准偏差)描述。在这种情况下,sigma 等于 10 美元。sigma 越大,我们就越不确定我们的投资组合在任何特定年份的回报(我们的投资组合价值波动就越大)。
如果你不熟悉正态分布及其参数,可以看看下面的帖子:
了解如何使用它,以及为什么它对数据科学和统计学如此重要
towardsdatascience.com](/understanding-the-normal-distribution-with-python-e70bb855b027)
我们还假设两只股票的走势完全一致(意味着它们的相关性为 1.0)。我们可以使用上面的公式计算我们投资组合的风险:
stdev =
sqrt(w1^2*stdev1^2 + w2^2*stdev2^2 + 2*w1*w2*p*stdev1*stdev2)Portfolio Risk
= sqrt(0.5^2*0.1^2 + 0.5^2*0.1^2 + 2*0.5*0.5*1*0.1*0.1)
= 0.1
所以我们两只股票投资组合的风险仍然是 10%。用美元计算,我们的 sigma 现在是 200 美元* 10% = 20 美元。所以我们从 100 美元的投资组合,预期收益为 10 美元,sigma 为 10 美元,到 200 美元的投资组合,预期收益为 20 美元,sigma 为 20 美元。(我互换使用 sigma 和 risk)
所以基本上没什么变化。如果我们将股票 1 的持有量增加一倍(而不是购买股票 2),我们将会获得完全相同的结果。这是因为我们假设股票 1 和股票 2 完全相关(p=1)。因此,拥有其中之一或两者都是一回事。
现在让我们看看如果股票 1 和股票 2 不相关会发生什么。
相关性= 0 的情况
我们 200 美元投资组合的预期回报仍然是 20 美元。但现在我们的风险是:
stdev =
sqrt(w1^2*stdev1^2 + w2^2*stdev2^2 + **2*w1*w2*p*stdev1*stdev2**)***Since p=0, the third term drops out!***Portfolio Risk
= sqrt(0.5^2*0.1^2 + 0.5^2*0.1^2 + 2*0.5*0.5***0***0.1*0.1)
= 0.0707
我们的投资组合风险已降至 7.1%。这意味着以美元计算,我们 200 美元的投资组合的 sigma(也称为风险)为 14.14 美元,大大低于我们之前的 sigma 20 美元。
因此,与完全相关的情况和持有 200 美元股票 1 的情况相比,我们能够在保持相同预期回报的同时降低近三分之一的风险!一顿真正的免费午餐。
这显然是一个典型的例子。事实上,很难找到一堆完全不相关的资产都有很高的预期回报。关于相关性和多样化的更深入的讨论,你可以阅读我之前的博客:
为什么投资不相关的资产是值得的
towardsdatascience.com](/understanding-correlation-and-diversification-661c19a26555)
最优投资组合
因此,最优投资组合是以这样一种方式组合我们的候选资产,即对于给定的风险水平,投资组合获得正回报的概率最大化。
为什么在给定的风险水平下?如果我们唯一想做的事情是最大化我们的正回报概率,我们可以投资像货币市场基金这样的超低风险资产。从技术上来说,我们几乎可以保证赚钱,但那只是几个便士。记住你需要承担一些风险来获得回报。
相反,我们希望(尽可能)确定的是,对于特定的风险水平,我们投资的投资组合能够最大化我们获得正回报的机会。做到这一点的投资组合,也称为最优投资组合,是预期回报率最高的投资组合(或者用统计学术语来说,是 Z 值最高的投资组合)。
所以我们需要解决的优化问题是:
For a given level of risk, solve for the weights, W, that:**Maximize W.T @ E****Subject to:
W.T @ Cov @ W = (target risk)^2
and sum(W) = 1**Where **W** is a vector representing the weights of the asset in our portfolio.
**E** is a vector representing the expected returns of the asset.
**Cov** is the covariance matrix of the asset's returns.
**@** denotes matrix multiplication.
**.T** denotes the transpose operation.
简单地说,我们希望在以下条件下最大化预期收益(W.T @ E ):
- 投资组合方差(W.T @ Cov @ W)等于目标方差。记住方差是风险的平方(因为风险等于标准差)。这就是让我们达到特定风险目标的约束。
- 权重总和为 1。在这种情况下,我们允许短重(负重量)。如果我们不想要负权重,我们需要添加一个额外的约束。如果我们没有这个条件,优化就会炸或者吐槽乱码。
我们可以用两种方法来解决这个问题——用优化器或者分析方法。允许卖空的投资组合优化的酷之处在于,它有一个解析解,我们只需要一些矩阵代数就可以实现。
直到下次
这就是本文的全部内容。我已经写了一些代码来分析性地运行优化。但是我想让这篇文章停留在概念层面。代码和例子将在以后的文章中发布!在那之前干杯!
下一部分:
你所需要的只是一些矩阵代数来做出最优投资组合
towardsdatascience.com](/portfolio-optimization-with-numpy-93e1428525a5)
了解 AB 测试中的功耗分析
AB 测试中你需要知道的统计基础知识的通俗易懂的解释
图片来源:https://www.crazyegg.com/blog/ab-testing/
你对你的产品有一个很好的想法,你知道它会增加转化率并带来商业价值。但是你能说服管理层吗?而且即使你自己也确信,你能量化你对这种确信的信心吗?
幸运的是,有了 AB 测试,你可以去掉很多猜测。或者至少你可以做一个量化的猜测,并确定你的猜测有多“可猜”。用统计学的术语来说:你可以测试你的想法真的很棒的假设,并为你看到的结果设定一个置信度。
如果你是一个产品所有者,对 AB 测试如何工作有一些大概的了解,并理解一些常见的应用和问题,会很有帮助。如果你自己运行测试,理解 AB 测试背后的基本统计和直觉在执行实验设计时是至关重要的,即使你有一个完全设置好的实验引擎。实验设计回答了以下问题:
- 我应该为我的测试收集多少数据?
- 我应该运行我的测试多长时间?
- 我的页面没有很多访问者——这在进行实验时有关系吗?
在这篇文章中,我将讲述 AB 测试背后的统计直觉,实验设计和一些简单的实际应用。让我们直接开始吧。
什么是 AB 检验,它与假设检验有什么不同?
统计假设检验是接受或拒绝原假设的程序,简称 H0。零假设表示关于总体参数的假设,被视为默认假设。举个例子:我们认为一枚硬币是公平的。如果把硬币抛 100 次,我们能确定这个假设是否合理吗?
****AB 测试是从总体中抽取两个随机样本,一个对照样本和一个变异样本,并确定这两个样本之间的差异是否显著。注意,有许多形式的实验(ABC 和多元测试),但我们今天只讨论 AB 测试。
在本文的其余部分,我们将不断地使用术语控制和变体来进入 AB 测试的思维模式。
了解术语:零假设,错误类型
现在让我们把它放在测试一个你想在你的网站上发布的新特性的背景下。你将有一个控制和变异版本的测试,其中变异样本有新的特点。以下是一些术语:
- 零假设,H0 是当你的设计变化不会对你的测试变化产生影响的时候。如果你没有拒绝零假设,你会表现得好像零假设是真的,你不应该推出你的新功能。
- 替代假设,H1 是零假设的替代假设,设计变更将对您的测试变化产生影响。如果你拒绝零假设,你接受替代假设,你应该推出你的新功能。
- 第一类错误:你拒绝了空值,当你不应该拒绝的时候。在网络世界中,这意味着你正在启动一个功能变化,而它实际上对转化没有积极的影响。你的成本就是开发的成本。
- 第二类错误:当您不拒绝 null,但实际上测试和控制之间存在正差异时。这是当你决定不推出一个新的功能,而实际上是有区别的。假设变化是积极的,您的净成本将是推出该功能的潜在成本减去开发成本。
二项式和正态分布是如何涉及的?
为什么我们要用二项分布?在 AB 测试中,您试图确定变体中的成功数量是否与控制中的显著不同。一系列试验的成功次数(通常是转化或无转化结果)可以使用二项式分布进行充分测量,其中 X 轴是转化次数(或转化率), Y 轴是概率。
再补充一下,中心极限定理说,如果样本量足够大,那么分布将遵循正态分布**。**
什么才够大?一个经验法则是,如果样本量乘以概率(或转换率)大于 5,就应该遵循正态分布。
分布如下图所示,可以用平均值和标准差来表示。
现在,让我们把它带回控制和变异样本测试。
下图显示了控制分布和变量分布。对照将代表无效假设,而变异将代表替代假设。临界值区域线代表您拒绝零假设的点。为了说明的目的,我们可以说,如果 H1-H0 >= 0.5,我们将拒绝零假设(H1 是替代假设,H0 是零假设)。该变量的实际平均值为 0.7。
如果零假设是真的,你拒绝零假设,有可能你犯了第一类错误。这种可能性用灰色阴影区域表示。另一方面,如果零假设不成立,并且你没有拒绝零假设,那么你就有可能犯第二类错误。这个机会用红色阴影区域表示。
我希望上面的插图能给你一个更好的直觉,让你更自信地做出判断,变体是否真的与对照不同。让我介绍另一个例子来直观地说明样本量。
样本量越大,样本越有可能代表实际总体。用统计学的术语来说,你的标准差会更小,你的分布会更窄。下图具有相同的分布均值,但是标准误差更小,或者样本量更大。代表 I 型和 II 型误差的阴影区域变小。如果你拒绝零假设,你现在对不犯 I 型错误更有信心,因为你的样本量更大了。
这种分布有更多的样本,因此分布更窄
既然我们对样本大小和测试分布有了一些直觉,那么当我们谈论设计实验时要考虑的统计因素时,我们可以有更强的直觉。
实验设计和功耗分析
当你设计一个测试时,你想要准备你的实验,以便你可以自信地对变异样本中的差异(或不存在差异)做出陈述,即使差异很小。如果你的网站每天有数百万的独立用户,那么即使 0.5%的转化率差异也会对你的收入产生重大影响。如果是这样的话,你要抓住它。
设计实验时,需要考虑四个统计因素:
****1。最小可检测效果大小和转换率:你想捕捉到什么样的效果,让实验物有所值?这是一个很容易通过衡量美元数额来回答的问题。当你将最小可检测效果乘以你的 N(用户总数)时,你将获得多少可测量的正面提升?例如,如果 1000 名额外顾客以平均 50 美元的购物篮结账,您将实现多少收入提升?
如果你是一家大型电子商务公司,每天有 1500 万独立访客访问你的商品页面,1%将对你的收入产生巨大影响。事实上,1%可能是一个很高的要求,因为你的网站可能已经通过许多产品开发进行了优化,以达到每天 1500 万用户。另一方面,如果你的网站每天只有 1000 次转换,那么 1%的提升就意味着 10 次额外的转换,这对你的收入来说是没有意义的。与此同时,如果特性变化解决了用户的一个明显的痛点,实现 10%或更多的提升可能是非常可行的。
效果大小关系到你的业务规模和客户的美元价值
在计算样本量时,转换率很重要。如果你网站的转换率是 30%,你不需要像你网站的转换率是 1%那样大的样本量
****2。样本量:你需要采集的样本量是多少?你的实验设计可能需要 100 万访问者,但是如果你的账户页面每天只有 5000 名访问者,那么是时候改变你的其他参数了。
****3。显著性:也称为 alpha,这是你在实验中检测到的差异是偶然的而不是来自实际差异的概率阈值。通常设置为 5%。
另一种说法是:如果测试中没有差异,你愿意在 5%的时间里犯第一类错误。
4。Power: 也称为(1 -Beta),可以解释为你的测试的强度,以检测你的变体中的实际差异。相反,Beta 是您的测试没有拒绝零假设的概率,而它实际上应该拒绝零假设。功率越高,第二类错误的概率越低。实验通常设置在 80%或 20%β的功率水平。
另一种说法是:如果测试中有差异,你愿意在 20%的情况下犯第二类错误。
****功率分析在给定其他 3 个部件的输入的情况下找到其中一个部件。
让我们重温一下我们熟悉的无效和替代假设分布,将它与我们迄今为止建立的直觉联系起来。给定固定的效应大小和样本大小,α和β成反比关系。你为你的实验设置的能量越多(beta 越小),alpha 区域就越大——没有免费的午餐。
作为一名从业者,基于业务的性质,从一个实验到另一个实验,统计的显著性和功效通常是固定的。你对每个新实验的关注是你的样本量是否足以让你的实验检测到你所关心的效应大小。换句话说,你的实验所需的最小样本量是多少?
计算样本量的公式为:
其中:
- p =平均转化率
- pA =控制概率或转换率
- pB =您计划检测的变异概率或转换率
- |z2| =力量的绝对 z 值
- 1.96 =显著性为 5%时的 z 得分(双尾检验)
实际上,有很多在线计算器可以帮助你估计所需的最小样本量。这个很好检验。
尝试使用计算器,看看改变统计因子的值如何影响所需的最小样本量。这种关系将遵循以下总结:
一旦你知道你的最小样本量是多少,你就可以评估你的网站是否有足够的流量来达到这个样本量,以及你应该进行多长时间的实验。
最短时间
假设您能够为您运行的页面上的每个变体捕获 100 万访问者,而所需的样本量仅为 300 万。然后你需要运行你的实验 3 天并得出结论吗?你可以主张敏捷性和更快的启动,但这不是一个好主意。您希望您的样本能够代表您的总体,并且可以合理地假设周末的行为与工作日的行为非常不同。见鬼,周四的行为和周五的行为非常不同。因此,建议运行实验至少 2 周,最少运行 1 周。
关闭
感谢阅读。我这篇文章的目标是帮助产品经理或被采访者(或者任何人,真的)清楚地谈论 AB 测试中的直觉。如果有不清楚的地方,请告诉我。
在接下来的文章中,我将介绍
- 拒绝零假设和置信区间的计算,我们也将讨论 1 对 2 尾检验
- 定义测试分析的度量和深度。
敬请关注!
来源:
帖子原载于 我的个人博客 。
了解 COVID 测试的精密度、召回率和准确度
使用不平衡数据集并通过新冠肺炎测试的模拟示例理解混淆矩阵
在最近回顾我的基本统计学知识时,我开始深入研究混淆矩阵的概念。这一次,我手头有一个例子,不幸的是,在过去的 4 个月里(今天是 2020 年 7 月 5 日),这个例子与新冠肺炎非常相关。我们将使用一个模拟的例子来帮助我们理解准确性、作为*不平衡数据集中的一个度量、*如何被误导。
方案
让我们假设一家公司发布了一个 COVID 测试套件,声称他们的测试在试运行中达到了“95%的准确率”。这个声明中有一个陷阱,组织没有在发布信中披露。该测试实际上并不是在内部进行医学检查,该套件被装配并默认将每个人标记为“无 COVID”。让我们看看如何确保我们不会被误导。
精确度、召回率和准确度是什么意思?
在我们继续之前,让我们快速看一下下图,它解释了术语精度和召回所代表的比率
https://upload . wikimedia . org/Wikipedia/commons/2/26/precision recall . SVG
精度:给出我们的“真阳性”在“我们做出的所有阳性预测”中的比率
回忆:给出我们的“真阳性”在“所有实际阳性值”中的比率(分母中的假阴性是我们 错误地 做出的阴性预测,实际上是阳性的)
准确性:另一方面,是“我们所有的正确预测(包括正面和负面)”与“我们所有的预测(所有样本)”的比率
回到我们的场景
让我们回到我们在第一部分讨论的案例。该公司开发的测试套件声称准确率达 95%。我们发现,平均来说,100 个人中有 5 个人在试用测试中实际上是COVID 阳性(我们认为这是我们在这里考虑的事实来源)。因此,该数据集是一个 不平衡数据集 (比例为 19:1)。
请记住,默认情况下,检测试剂盒会将 100 名患者中的每一位标记为“非 COVID”。
下面我们来画困惑矩阵:
理解混淆矩阵中的值:
- 我们没有任何真阳性( TP ),因为我们没有将任何人标记为“COVID 阳性”,我们也没有任何假阳性( FP ),因为我们没有对患者做出任何阳性预测(记得试剂盒被操纵)
- 我们确实有一个假阴性( FN ),因为实际上是 COVID 阳性的 5 个人被标记为 COVID 阴性。我们还有一个真阴性( TN ),因为所有 95 个非 COVID 阳性的人都被“正确地”预测为“非 COVID”(参见 catch ?这就是准确性度量的来源)
让我们逐一计算这三个指标的值:
- 计算精度:
准确度= (0 + 95)/ ( 0+95+0+5) = 95/100
如果我们只看准确性,这看起来像是测试套件的一个极好的创新,可以发布给更多的观众,但是等等,我们仅仅基于准确性度量来信任套件吗?让我们计算精度并回忆下一步
2.计算精度:
精度= (0+0)/(0) = N/A ( 不适用,以避免任何被零除的错误
3.计算召回:
召回= 0/(0+5) = 0
4.我们还可以看一下 F1 的分数,它是精确度和召回率的加权平均值。
F1 得分= 2*(精确度*召回率)/(精确度+召回率)
在这种情况下,这相当于不适用,因为精度为不适用
结论:
精确度和召回率都告诉我们,试剂盒被操纵了,因为分数要么是 0,要么是 N/A,这就对测试提出了足够的质疑。对于不平衡的数据集,选择不正确的评估指标很容易被误导。
延伸阅读:
- 在 wiki 页面上,您可以进一步阅读大量关于精确度和召回率的其他指标。
- https://machine learning mastery . com/tour-of-evaluation-metrics-for-unbalanced-class ification/
- https://towards data science . com/what-metrics-we-should-use-on-unbalanced-data-set-precision-recall-roc-e2e 79252 aeba
讨论测量测试准确度重要性的文章
- https://www.nature.com/articles/s41591-020-0891-7
- https://www . CNN . com/2020/04/28/health/coronavirus-antibody-tests-terrible/index . html
收到来自数据科学界的建设性反馈总是令人愉快的。请在下面发表您的评论,以帮助我们了解更多信息。
如果你觉得这很有用,请在 Medium 和 LinkedIn 上关注我。
理解主成分分析
五氯苯甲醚的分解,何时使用,为什么有效
图片作者:特里斯特·约瑟夫
机器学习(ML)是人工智能(AI)的一个子集,它为系统提供了自动学习和根据经验改进的能力,而无需显式编程。ML 中采用的算法用于发现数据中的模式,从而产生洞察力并帮助做出数据驱动的决策和预测。这些类型的算法每天都被用于医疗诊断、股票交易、运输、法律事务等领域的关键决策。所以可以看出数据科学家为什么把 ML 放在这么高的基座上;它为高优先级决策提供了一个媒介,可以实时指导更好的业务和更明智的行动,而无需太多的人工干预。
为了学习,ML 模型使用计算方法来直接从数据中理解信息,而不依赖于预先确定的方程。这些算法用于确定数据中的模式,并开发出将输入变量 x 最佳映射到目标变量 y 的目标函数。这里必须注意,目标函数的真实形式通常是未知的。如果函数是已知的,那么就不需要 ML。
因此,其思想是通过对样本数据进行合理的推断来确定该目标函数的最佳估计,然后针对当前情况应用和优化适当的 ML 技术。
图片作者:特里斯特·约瑟夫
这个任务看起来很简单。找到一个使用 x 并输出 y 的函数能有多难?有时候,在特定的情况下,这很简单。例如,假设我们想预测一个人的收入,我们仅有的支持变量是每年工作的小时数和他们的头发颜色。他们的头发颜色可能不会对他们的收入有太大影响,但是工作时间会有影响。因此,预测收入的函数将工作小时数作为输入。搞定了。
但情况并非总是如此。由于变量之间的关系,开发能够产生准确预测的模型是相当困难的。在大多数“真实世界”场景中,有多个输入变量同时存在。每个输入变量都会影响输出变量,但它们也会相互影响,理解这些复杂的关系有助于构建更好的模型。尽管上述示例很简单,因为只有两个预测变量可供选择,而且其中一个似乎与场景无关,但变量选择和模型拟合是开发适当函数的关键部分。
图片作者:特里斯特·约瑟夫
模型拟合是指让算法确定预测因素和结果之间的关系,以便可以预测未来值。模型的预测值越多,模型就能从数据中学到越多。然而,样本数据通常包含随机噪声;这一点,加上模型中预测因素的数量,会导致模型学习数据中的错误模式。如果试图通过添加更少的预测器来应对这种风险,可能会导致模型无法从数据中获取足够的信息。这些问题被称为过拟合和欠拟合,目标是确定简单性和复杂性之间的适当组合。
那么,如何才能在简单和复杂之间找到这种平衡呢?如果存在如此多的变量,以至于不可能合理地理解每个不同变量之间的关系,这就特别困难。在这种情况下,想法应该是执行维度缩减。顾名思义,它涉及使用各种技术来减少数据集中的特征数量。
这可以通过两种主要方式实现:特征排除和特征提取。特征排除指的是仅保留“可用于”预测输出的变量,而特征提取指的是从数据集中的现有变量开发新特征。将特征排除视为简单地删除或保留可能包含在模型中的变量,将特征提取视为从现有变量中创建新的(希望更少)变量。
图片作者:特里斯特·约瑟夫
主成分分析 (PCA)是一种特征提取方法,它以创建新特征的方式对变量进行分组,并允许丢弃不太重要的特征。更正式地说,PCA 是在一组数据中提供最大可变性的变量的线性组合的识别。
为了计算分量,这种方法利用线性代数中的元素(例如特征值和特征向量)来确定什么组合会产生最大方差。显式数学不在本文讨论范围内,但我会在文章末尾附上涉及这方面的建议材料。本质上,假设数据被绘制在图表上。PCA 方法将找到数据中沿每个轴(变量)的平均值,然后移动这些点,直到平均值的中心位于原点。
接下来,通过原点的直线将拟合数据,该直线使其自身和所有数据点之间的距离最小。确定最佳拟合线的另一种等效方法是绘制一条穿过原点的线,使投影点到原点的距离平方和最大化。这条线一旦确定,就被称为第一主成分。
图片作者:特里斯特·约瑟夫
初始线的斜率可以计算和处理,以产生最大化变化的最佳变量组合。即假设有两个变量,发现直线的斜率为 0.25。这意味着一个轴上每覆盖 4 个单元,另一个轴上就覆盖 1 个单元。因此,这两个变量的最佳组合是 4 部分变量 1 和 1 部分变量 2 。
假设第一主成分不占数据集内变异的 100%,则可以确定第二主成分。这是指变量的线性组合,它使与第一个组合正交的所有其他线性组合中的可变性最大化。简单地说,一旦第一主成分被考虑,第二主成分使剩余的可变性最大化。如果我们再次假设有两个变量,并且第一主成分已经确定,则第二主成分将是垂直于初始最佳拟合线的线。
最后,每个主成分的变化量可以通过将每个成分的距离平方和除以样本量减 1 来确定。回想一下,这个想法是为了减少数据集的维度。因此,由主成分解释的变异的百分比可以通过将变异相加,然后除以总和而得到。如果发现第一主成分占数据内变化的约 90%,则理想的是进一步仅使用第一主成分。
图片作者:特里斯特·约瑟夫
虽然这很好,但 PCA 确实有一些问题。最主要的一点是,结果直接取决于变量的规模。如果一个变量因为比其他变量更大而看起来有更多的变化,这个变量将在主成分中占主导地位,并将产生不太理想的结果。类似地,主成分分析的有效性很大程度上受厚尾数据中出现的偏斜的影响。最后,PCA 可能很难解释,尤其是因为这种方法将变量混合在一起以最大化可变性。
尽管存在挑战,但 PCA 是一种可靠的特征提取和降维方法,应该用于理解超大数据集中变量之间的关系。
参考文献:
应用多元统计与 R,丹尼尔泽尔特曼
【youtube.com/watch?v=FgakZw6K1QQ 号
dezyre . com/data-science-in-python-tutorial/principal-component-analysis-tutorial
其他有用的材料:
builtin . com/data-science/step-step-explain-principal-component-analysis
machinelementmastery . com/calculate-principal-component-analysis-scratch-python/
machinelingmastery . com/principal-components-analysis-for-dimensionality-reduction-in-python/
geeksforgeeks.org/ml-principal-component-analysispca/
youtube.com/watch?v=0SiRTlFcZRQ
理解概率和统计:数据科学家的中心极限定理和收敛
“理解概率和统计”系列的第二篇文章,解释收敛和中心极限定理(CLT)
数据科学领域围绕着概率和统计。特别是,收敛和中心极限定理(CLT)是每个数据科学家必须熟悉的一些最重要的概念。因此,本文旨在解释什么是随机变量的收敛性,这是一个在数学中大量使用的概念。此外,它提供了中心极限定理的概述。
概率与统计
如果你想从最基本的方面理解概率和统计的概念,请阅读下面的第一篇文章。它解释了概率的本质:
为统计学家解释概率的关键概念
towardsdatascience.com](/understanding-probability-and-statistics-the-essentials-of-probability-for-data-scientists-459d61a8da44)
1.文章目标
本文将概述以下关键部分:
- 趋同是什么意思?
- 什么是中心极限定理?
根据每个人的兴趣,本系列的下一组文章将解释连续随机变量的联合分布以及关键的正态分布,如卡方分布、T 分布和 F 分布。随后,下一篇文章将旨在解释统计和贝叶斯推理的基础,以及马尔可夫链和泊松过程。
这些文章的目标是向数据科学家简化概率和统计的概念。
2.趋同是什么意思?
收敛的概念是一个非常重要的概念。在我们讨论收敛性之前,让我们先了解一下极限在数学中的含义。
数学中的“极限”是什么?
考虑这个函数: f(x) = /x ,其中 x 为正数。
如果我们取一系列值 0 < x ≤ ∞,并开始将它们代入函数 f(x ),那么我们将得到以下结果:
显示 x 的递增值和 f(x)的相应值的表格
我们可以看到,随着 x 的增大,f(x)减小。它暗示 x 和 f(x)彼此成反比。
如果我们将结果绘制成图表来可视化,那么我们会看到它形成了以下形状:
显示 x 和 f(x)的图表
我们可以看到,随着 x 的增加,f(x)越来越接近 0,尽管 f(x)从未接近 0。因此,我们可以得出结论,当 x 逼近∞时,f(x)的极限为 0。
当 x →∞,极限 f(x) = 0。
此外,y = 0 是 f(x)的渐近线,因为这条线越来越接近 0,但从未穿过 0。
这就是所谓的函数极限。
我们可以把 1/n 的极限写成:
当 x 达到无穷大时,1/x 达到 0
我们可以注意到 f(x)收敛于 0
极限在数学中用于简化复杂性。它可以近似一个函数。
收敛的概念可以用不同的方式来解释,重要的是要理解它的变体。
假设我们收集了两个随机变量 A 和 b 的数据样本,这两个变量可以是任何东西,比如股票的历史价格,甚至运动员训练的时间等等。
随机变量的样本具有抽样分布。
抽样分布是实际分布的近似值。为了简单起见,我们可以得出结论,随着样本量的增加,我们可以用极限来近似变量的分布。这是要记住的关键!
收敛的概念可以用样本的潜在概率来解释。
要注意的关键是,可以分析随机变量的概率,以评估随机变量是否收敛。
3.什么是中心极限定理?
在我解释中心极限定理(CLT)之前,我将试图打下一个坚实的基础,以便我们能容易地理解 CLT。
我们也考虑一下,我们想找出变量有多接近?
这里的关闭到底是什么意思?
- 是指计算两个变量各点的绝对差值吗?
- 或者,这是否意味着我们需要计算两个变量的分布,然后计算期望之间的差?
- 或者,这是否意味着我们需要计算两个变量之间的相关性。
让我们通过了解大数定律来理解它。
3.1 大数定律
本节解释了大数的概念。对于数据科学家来说,这是一个重要的概念。
这个概念很简单,理解起来非常重要。
首先,记住每个随机变量都有一个期望值(可能是算术平均值),而且随机变量的每个样本都有其样本平均值。这两个均值可以不同,但它们彼此相关,我们希望样本均值尽可能接近随机变量的期望均值。当我们增加样本量时,我们就更接近预期的平均值。
简单来说,大数定律表明,随着实验次数的增加,样本的平均值将趋向于随机变量的期望值。
这给我们带来了大数定律的两个最重要的版本;弱大数定律和强大数定律。
3.2 弱定律:
假设我们有一个独立的随机变量序列。在这里,独立性的概念意味着第一个样本不会影响下一个样本,例如多次投掷硬币。
所有随机变量的平均值是相同的,并且它们的方差≤ v,其中 v < ∞。这意味着均值是一个常数,方差有一个上限。
该定律指出,随着样本数量增加到无穷大,样本均值以概率收敛到共同均值。
3.3 强定律:
强大数定律表明,当我们将样本大小增加到无穷大时,样本的期望值以概率 1 收敛到随机变量的期望值,而不仅仅是收敛到期望值。
记住,概率 1 表示一个事件确实发生了
因此,强大的大数定律表明,随着试验次数增加到无穷大,变量以概率 1 收敛到期望值:
P(lim n → ∞ Xₙ =μ) = 1
另一方面,弱定律简单地说明概率收敛于一个公共 E(X)。
3.4 中心极限定理(CLT)
这就把我们带到了文章的核心。
我将尝试用三个容易理解的要点来解释中心极限定理的概念。这个概念在数据科学项目中大量使用,特别是在我们试图预测变量的项目中。
事实上,我们很容易将中心极限定理视为概率统计理论中最重要的概念之一。
1️⃣ - 要记住的第一点是,两个变量的分布可以收敛。当两个随机变量的分布接近时,那么这些随机变量也可以认为是接近的。这就是所谓的分布趋同。
如果随机变量序列 X ₙ 收敛于分布函数 F ₙ (x)那么序列分布的极限是:
我会多解释一点这一要点,因为理解它相当重要。
让我们假设我们取了一个随机变量序列,X1,X2,…,Xn。
让我们也考虑这些随机变量是相互独立的,并且是同分布的。而且它们的方差是有限的。随着随机变量样本数量的增加(n → ∞),样本总数的分布将收敛到一个共同的分布。
CLT 有助于我们理解这种常见的分布将是正态分布。
让我们考虑 Sn = X1 + X2 + … + Xn。那么 Sn 的分布将在 n * μ附近,方差将在 n* μ附近,其数量级为 n 的平方根
2️⃣ —需要注意的第二点是,中心极限定理都是关于正态分布的。
草图显示钟形正态曲线
正态分布是一个需要理解的基本概念。这篇文章解释说:
解释为什么高斯分布是如此成功和广泛使用的概率分布
medium.com](https://medium.com/fintechexplained/ever-wondered-why-normal-distribution-is-so-important-110a482abee3)
基调指出样本均值的分布是正态的。为了解释这一点,考虑我们进行一项实验并收集一个随机变量的大量观察值。让我们把这些观察作为一个例子来参考。
随后,我们可以计算样本的平均值。
如果我们重复这个实验很多次,那么我们将开始收集大量的样本。然后,我们可以计算每个样本的平均值,并开始分析样本平均值的分布。
我们会注意到样本预期平均值的分布将由正态分布近似,这是一个非常重要的概念。
需要注意的关键是,随机变量必须相互独立,并且必须同分布。
3️⃣——最后要考虑的一点是,中心极限定理允许我们用正态分布来近似大量的分布。
上面的公式有助于我们标准化一个随机变量,因为我们实际上是减去平均值,然后用方差除每个样本,此外还考虑了标准误差。
为了进一步解释,如果随机变量存在,并且随机变量的每个序列具有有限的均值μ和方差σ,那么中心极限定理表明,如果我们标准化随机变量以确保均值为 0,方差为 1,那么当 n → ∞时,则分布收敛于正态分布,而不管单个随机变量样本的分布如何。
作为例子,这些独立的随机变量可以具有伯努利或泊松分布。它可能是右偏或左偏的,即使这样,随着样本的增加,分布也会收敛到正态。
我们增加的样本越多,分布就越接近正态分布。
一旦我们假设数据呈正态分布,我们就可以开始简化复杂的数据集,并开始近似合理的预测,但需要注意的关键是样本量应该很大(通常> 30)。
这就是为什么中心极限定理是概率统计学科中的一个中心概念的原因。
3.摘要
本文解释了什么是随机变量的收敛,并提供了中心极限定理的概述。
感谢您的阅读
这两个概念都是数据科学家必须了解的。
这一节为本系列的下一篇文章奠定了基础。
根据每个人的兴趣,本系列的下一组文章将解释连续随机变量的联合分布以及关键的正态分布,如卡方分布、T 分布和 F 分布。随后,本系列的文章将致力于解释统计和贝叶斯推理,以及马尔可夫链和泊松过程。
理解概率和统计:学生 t 分布、卡方分布和 f 分布
处理数据和统计推断的数据科学家必须知道的话题
概率与统计
文章目标
本文旨在解释我推荐每个数据科学家都必须熟悉的三个重要分布:
- 学生 T 分布
2.卡方分布
3.f 分布
所有这三个发行版彼此密切相关。我将尝试用一种简单的方式来解释这些分布。
1.学生 T 分布
本节将向读者介绍 Student-T 分布
Student-T 是需要理解的最重要的统计分布之一。它也被称为 t 分布。
Student-t 分布大量用于统计领域。特别是在样本量小和/或总体标准偏差未知的情况下。另外,分布曲线呈钟形也很重要。Student-t 分布可以帮助我们从样本中获取有意义的统计信息。此外,它还用于统计推断。
当我们没有一个大的样本集,大约 30 个观察值,或者当总体的标准偏差不可用时,使用 Student-T 分布
学生 T 被认为是统计学中最大的突破性分布之一。当总体的标准偏差未知时,它可用于推断较小样本的意义。这可以应用于大量的世界问题。
学生 t 分布是正态分布的近似值
如果我们绘制学生 t 分布图,它看起来很像一条钟形曲线。因此,学生 t 分布类似于正态分布。此外,t 分布的性质更接近正态分布。例如,分布的平均值是 0。
需要注意的最重要的一点是,student-t 分布比正态分布具有更厚的尾部。这意味着变量的离差更大。
最重要的部分是自由度,它总是 1 减去样本数。
让我们考虑从正态分布的总体中收集 N 个独立的观察值。我们可以通过应用以下公式将该分布转换为 student-t 分布:
我们需要做的是获得总体和样本均值以及样本的标准差。在上面的等式中,总体呈正态分布,具有均值 M 和标准差 S,具有 n-1 个自由度(df ),其中 n 是样本的大小。
样本越大,学生 t 分布越接近正态分布。t 分布的中位数是 0。
随着自由度的增加,分布向正态分布收敛。这是根据中心极限定理。
该草图显示了正态分布和 Student-t 分布的概率分布曲线:
该示意图显示,当自由度增加时,t 分布的尾部变窄,分布曲线开始类似正态分布。
学生-t 围绕 0 对称。它的峰值比正态分布低,尾部更厚。这意味着样品中有更高的分散度。
现在要强调的是,如果我们假设我们的变量具有学生 t 分布,那么这意味着我们获得远离平均值的值的概率比我们使用正态分布产生的样本的概率要高。
2.卡方分布
本节将介绍卡方分布。它被读作凯平方分布。
平方这个词很重要,因为它意味着正态分布的平方。我也会在这篇文章中解释它的意义。
卡方是一个连续的概率分布。它在统计推断中也大量使用。当我们对置信区间及其标准差感兴趣时,我们利用卡方分布。
正如 student-t 分布一样,卡方分布也与标准正态分布密切相关。
让我们考虑收集 N 个(大于 1 的数)独立随机变量的数据,这些变量具有标准的正态分布。每个随机变量都有一个σ标准差。
如果我们对分布求平方并求和,那么分布的平方和将是具有 N 个自由度的卡方分布。
当我们平方正态分布时,卡方分布总是大于 0,因为所有的负值都是平方的。
值得注意的是,分布的平均值等于自由度。
每个随机变量被认为有 1 个自由度。
随着自由度的增加,分布将开始类似于标准的正态分布。然而,当我们对分布值求平方时,卡方分布总是向 y 轴的右侧移动,因为分布中不存在负值。随后,随着我们添加更多的随机变量,右偏度会降低。这又是由于中心极限定理。
方差和均值也随着自由度的增加而增加。
这张草图展示了卡方分布的样子:
这张草图显示了卡方分布。随着自由度的增加,该分布非常类似于正态分布。
曲线下的面积总是等于 1。
3.f 分布
本节将概述 f 分布的基础知识。
f 分布也是需要理解的最重要的统计分布之一。它与卡方分布密切相关,因此我在卡方分布之后解释了它。同样重要的是要注意 f 分布有两种不同的自由度。分子中的第一个自由度和第二个类型是分母自由度。
我们假设有两个独立的随机变量。第一随机变量 A 具有 dA 个自由度,第二随机变量 B 具有 dB 个自由度。让我们也考虑两个随机变量都有卡方分布。请记住,卡方分布是指随机变量具有正态分布,并且其值是平方的。
在它们的自由度上,分布的比率将具有自由度为 dA(分子)和 dB(分母)的 F 分布。
当我们想要评估两个样本的方差的变化时,使用 f 分布。如果我们看一下 f 分布图,随着自由度的增加,图表非常类似卡方分布。
此外,分布是右偏的。当我们增加分子的自由度时,右偏度会减小。f 分布的平均值= dB/dB-1。
我们可以注意到,分布曲线取决于自由度。它是正偏的,表明平均值大于中值。
理解统计学和概率是很重要的。如果您对这个主题和发行版不熟悉,请阅读这篇文章:
为统计学家解释概率的关键概念
towardsdatascience.com](/understanding-probability-and-statistics-the-essentials-of-probability-for-data-scientists-459d61a8da44)
摘要
本文解释了三种重要的统计分布:
感谢您的阅读
- 学生 t 分布
2.卡方分布
3.f 分布
理解概率和统计:马尔可夫链
为数据科学家解释马尔可夫链:概率和统计中最重要的概念之一
一旦开始研究统计模型,每个数据科学家都会遇到术语马尔可夫链和马尔可夫过程。这篇文章将以一种容易理解的方式解释马尔可夫过程的基本概念。
马尔可夫链广泛应用于金融、汽车、食品、游戏行业,在日常生活中几乎无处不在。因此,这是所有统计学家必须知道的话题。
天气、赌博、股票价格、人类行为都是马尔可夫过程。
概率与统计
文章目标
本文旨在解释以下关键主题:
- 什么是马尔可夫过程?
- 什么是马尔可夫链?
- 马尔可夫链示例
- 什么是平稳马尔可夫链分布?
照片由 Ahmad Dirini 在 Unsplash 上拍摄
1.什么是马尔可夫过程?
让我们考虑一个物体以随机方式运动。该对象可以是足球、正在下一步棋的棋手、汇率、股票价格、汽车运动、顾客在队列中的位置、在路上移动的人、足球场上的运动员等。
这些物体以随机的方式运动。因此,我们可以得出结论,对象在本质上是随机的。这些对象本质上代表了整个系统。有趣的是,所有这些系统都有马尔可夫属性。
什么是马尔可夫性质?
如果一个物体以随机的方式运动,并且它的运动是无记忆的,那么这个物体具有马尔可夫性。
作为一个例子,让我们考虑我们的目标对象是一个被一群足球运动员踢来踢去的足球。接下来足球可以处于任何状态。例如,它可以向右或向左移动。如果我们的目标对象是一家公司的股票价格,那么接下来它可以得到任何数值,比如 0.999,1,2,3 等等。现在,我们在上面陈述了马尔可夫性质是无记忆的。这意味着物体未来的运动只取决于它现在的状态。这是需要理解的最重要的概念。
马尔可夫性质是无记忆的
这就给我们带来了马尔可夫链的概念。
2.什么是马尔可夫链?
让我们考虑一个物体以随机方式运动。因此,对象(或系统)的状态可以改变。这种变化被称为转换,并且每个转换都有与其他转换相关联的概率。
因此,这个数学系统可以从一种状态转换到另一种状态,而这种转换是基于概率的。
这个系统是一个随机过程的例子。让我们假设它可以处于状态 A 或 B。让我们还考虑当对象处于状态 A 时,它有 40%的机会保持在状态 A,有 60%的机会转换到状态 B,如下所示:
示例状态机
需要注意的关键是,该过程具有马尔可夫性质,这意味着它是无记忆的。因此,未来转移的概率不依赖于过去的状态。它们只取决于当前状态。这就是为什么我们认为它是无记忆的。
马尔可夫链是具有马尔可夫性质的随机过程
马尔可夫链表示物体的随机运动。它是一个随机变量序列 Xn ,其中每个随机变量都有一个与之相关的转移概率。每个序列也有一个初始概率分布π。
考虑一个可能处于三种状态之一的对象{A,B,C}。随后,该对象从状态 A 开始,可以转到另一个状态 B 或状态 C,依此类推。所有的状态 A、B、C 等都在状态空间中(所有可能状态的集合)。
马尔可夫链的组成部分
这给我们带来了马尔可夫链的两个主要组成部分:
1.1 状态空间
状态空间是随机系统可能处于的所有可能状态(位置)的集合。
例如,S 可以是{上,下}或{上,下}或{1.1,2.2,…}或{正,负,中性}或{AAA,AA,A,B,D,E…}等。
要注意的一点是,S 是状态空间,它是对象可能处于的所有可能状态的集合。
1.2 转移概率
第二部分是转移概率。转移概率是一个概率表。表中的每一项 I,j 都告诉我们一个物体从状态 I 跃迁到状态 j 的概率。
因此,将存在与需要等于或大于 0 的所有状态相关联的概率。另外,概率值之和需要为 1。
如果你想了解概率分布的基础知识,那么请阅读这篇文章,这篇文章解释了概率的基础知识。我向每一位数据科学家强烈推荐它:
为统计学家解释概率的关键概念
towardsdatascience.com](/understanding-probability-and-statistics-the-essentials-of-probability-for-data-scientists-459d61a8da44)
转移概率告诉我们对象可能处于的下一个状态及其相关概率。因此,对象的下一步移动仅取决于其当前值。
假设我们有一个转移概率矩阵:
上表显示,如果我们的目标对象处于正常状态,那么它有 60%的机会转换到正常状态,有 40%的机会保持正常状态。此外,如果目标对象处于按下状态,则有 60%的机会它将转换到按下状态,并且有 40%的机会它将保持在按下状态。
需要注意的关键是,只需要知道当前状态就可以确定未来状态的概率分布。其他任何历史信息都没有意义。
3.马尔可夫链示例
本节将使用一个简单易懂的例子来解释马尔可夫链的概念。
假设我们试图预测一系列交易对手的评级。每个交易对手都有当前评级。例如,交易对手 Alpha 可以具有评级 A 或 B 或 C。因此,{A,B,C}是状态空间中的状态。
我们已经得到了一个转移概率矩阵。这个矩阵也称为随机矩阵。转移概率矩阵告诉我们交易对手转移到另一个评级的概率。
交易对手评级状态空间= {A,B,C}
转换矩阵:
需要注意的是,行或列的概率之和是 1。
因此,如果一个交易对手的评级为 A,则有 30%的机会将其转换为 C 级,有 50%的机会将其自身转换为 B 级,而有 20%的机会保持 A 级。
随机过程也有一个概率分布,我将很快解释。
这给我们带来了一个重要的定理:
如果马尔可夫链是{Xn}并且具有状态空间 s,转移概率为{pij},其初始概率分布为{ ᵢ} }那么对于作为 s 的元素的任何 i ,我们得到:
p(x1 = I)=σμₖpₖi(s 的所有 k 个元素的总和)
因此,让我们也考虑交易对手的当前概率分布如下:
- 对于评级为 A 的交易对手,该值为 0.5
- 对于评级为 B 的交易对手,该值为 0.1
- 对于评级为 C 的交易对手,该值为 0.4。
马尔可夫链的概率分布可以表示为行向量π,如下所示:
概率分布加起来是 1。
有了这些信息,我们可以开始更好地理解这个过程。随着时间的推移,我们可以开始估计物体处于特定状态的概率。例如,对于下一个评级为 C 的交易对手,我们可以对所有状态的当前概率分布和转移概率的乘积求和:
P(X1 = C)=(0.5 * 0.3)+(0.1 * 0.4)+(0.4 * 0.3)= 0.31
它通知我们,在大约 31%的情况下,该交易对手在一步后将获得评级 C。一旦我们有了这些信息,我们就可以更有把握地预测一个随机运动的物体。
4.什么是平稳马尔可夫链分布?
这就把我们带到了随机变量的稳定性。这是本文的最后一个重要部分。这一节将介绍马尔可夫链的平稳分布这一主题。
让我们考虑我们的目标随机过程需要被估计,我们想了解随机过程的稳定性。
我们知道马尔可夫链有一个概率分布。“静止”这个词意味着主体是不变的,我们知道我们的随机对象可以移动到任何可能的状态。这种情况下的主题是随机过程的概率分布,而不是随机对象本身。
因此,如果马尔可夫链的统计分布是稳定的,那么这意味着该分布不会随着时间的推移而改变。
因此,如果转移矩阵是 P,概率分布是π,那么马尔可夫链的平稳分布就是π = π * P
理解收敛性和中心极限定理是很重要的。每个数据科学家都必须知道这些概念。此链接以简单的方式解释了它:
本文是“理解概率与统计”系列文章的第二篇。它侧重于 CLT 和…
towardsdatascience.com](/understanding-probability-and-statistics-central-limit-theorem-and-convergence-for-data-scientists-653c53145400)
这是一个需要理解的非常重要的概念。它告诉我们,不管具有稳定概率分布的系统在开始时在哪里,随着时间的推移,系统处于某个状态的时间量将会接近它的概率分布。
此外,该链将总是具有与开始时相同的概率。
随后,如果{Xₙ}是一个马尔可夫链并且它有一个平稳分布{πᵢ}那么如果 P(Xₙ=i)=πᵢ对于所有 I 那么 P(Xₘ=i)=πᵢ对于所有 I,只要 m > n.
这些信息可以帮助我们预测随机过程。
5.摘要
本文解释了以下关键主题:
- 什么是马尔可夫过程?
- 什么是马尔可夫链?
- 马尔可夫链示例
- 什么是平稳马尔可夫链分布?
理解概率和统计:数据科学家的统计推断
构成数据科学家工作基础的一个必须知道的话题
每一个数据科学家 都必须 熟悉统计推断的概念。因此,本文旨在提供一个统计推断的概述。它将以一种易于掌握和理解的方式,带你深入推断的统计世界。
一些科学家认为统计推断是统计学中最难的概念之一,彻底理解它确实可以帮助他们为他们的项目和团队增加重要价值。
我的目标是用简单的方式解释统计推断,以便每个人都能理解。
概率与统计
文章目标
本文旨在解释:
- 统计推断是什么?
- 理解统计推断过程
- 测试统计—更大的图片和示例
- 假设检验
- 错误类型
1.统计推断是什么?
数据科学家通常花费大量时间来收集和评估数据。然后,使用数据分析技术,将这些数据用于推断结论。
有时观察到这些结论,并使用图表和表格轻松描述这些发现。这就是所谓的描述性统计。其他时候,我们必须探索一种未被观察到的方法。这就是统计推断的来源。
到目前为止一切顺利。现在让我们来理解它
描述性统计推断本质上是向用户描述数据,但它不会从数据中做出任何推断。推断统计学是统计推断的另一个分支。推断统计学帮助我们从样本数据中得出结论,以估计总体的参数。样本不太可能绝对真实地代表总体,因此,在得出总体结论时,我们总会有一定程度的不确定性。
例如,数据科学家可能旨在了解他们实验中的变量是如何表现的。收集该变量的所有数据(人口)可能是一项巨大的任务。因此,数据科学家从目标变量的总体中抽取一个小样本来代表总体,然后对这个小样本进行统计推断。
这些样本用于估计人口
数据科学家的目的是在知道存在一定程度的不确定性的情况下,从一个样本推广到一个群体。因此,这些分析有助于他们对整个数据群体做出判断。有时,数据科学家模拟样本,以了解人口的行为,并为此对变量的潜在概率分布做出假设。这就是为什么概率的概念被大量推荐给数据科学家的核心原因之一。
随后,关于人口的性质提出了许多假设和主张。接下来,使用统计模型从样本中推断结论,从而推断群体的特性。
下面的文章提供了对什么是概率分布的透彻理解,我强烈推荐每个人阅读这篇文章
为统计学家解释概率的关键概念
towardsdatascience.com](/understanding-probability-and-statistics-the-essentials-of-probability-for-data-scientists-459d61a8da44)
2.理解统计推断过程
这一节将帮助我们理解统计推断的过程。让我们假设数据科学家想要了解他们的目标变量的行为。他们可能有兴趣了解总体参数的行为。
- 例如,他们可能想要评估银行中所有部门的所有隔夜批处理作业是否在特定的时间范围内完成。
- 或者,他们可能想找到一个国家人口的平均身高。
- 或者,他们可能想了解企业是否获得了相同的利润,以及用户在特定事件之前或之后的行为是否有所不同,例如在新产品发布之后。
- 或者他们想证明某个关于人口的特定主张是错误的。
有时候收集一个群体的所有数据太困难了。因此,数据科学家从总体中准备他们的样本集。
例如,数据科学家想要了解的参数可能是总体的平均值或方差。他们从总体中提取样本,然后进行统计分析以估计总体参数。有时,他们会检查参数是否符合被认为是真实的特定值。
下图说明了这一过程:
从获取样本开始,然后进行统计分析
注意统计推断和抽样技术一样好
样本中总有一些噪声成分。样本的标准差超过样本大小的平方根就是样本标准差。这是样本相对于平均值的噪声/离差。这种测量是基于样本大小的。该公式表明,样本量越大,标准差的影响越小,样本值越接近总体值。如果我们增加样本量,那么最终样本将开始接近总体。我推荐阅读这篇解释什么是融合和 CLT 的文章。这些是数据科学家需要理解的重要主题:
本文是“理解概率与统计”系列文章的第二篇。它侧重于 CLT 和…
towardsdatascience.com](/understanding-probability-and-statistics-central-limit-theorem-and-convergence-for-data-scientists-653c53145400)
2.1 思考这个例子
作为一个例子,我们可以声称我们的目标变量遵循正态分布,其均值始终为零,方差为 1,等等。
因此,在收集了一个小样本后,我们开始在直方图中绘制 10 个区间内的值。从图表中,我们得出结论,由于产生了钟形曲线,数据遵循正态分布。从那里,我们可以开始估计样本的均值和方差,从而得出关于总体的推断。我们也可以开始从样本的置信概率分布中产生更多的数据。
但是我们有多大的信心呢?我们怎么能拒绝这种说法呢?或者有没有一种方法可以计算出这种说法,让我们可以确定?我们能通过量化的方法来证明吗?这就是统计推断的用武之地!
理解统计推断是至关重要的,因为它可以帮助我们更好地理解我们的统计选择
由维多利亚·比尔斯伯勒在 Unsplash 上拍摄的照片
样本可以被认为是一个随机变量,它有自己的概率分布、模式和趋势。
我们可以收集大量样本,计算它们的均值、标准差和方差,以便更好地了解数据。
检验统计的过程可以用来帮助我们作出经过计算的决定。在对样本进行实验之前,科学家们对预期的结果有一个概念。这通常是通过探索性数据分析收集的。
3.测试统计—更大的图片和示例
现在,从理论上,让我们回顾一下统计推断是如何工作的。
假设我们正在进行一个数据科学项目,我们的客户是一家大型金融机构。我将我们的客户称为银行 a。他们希望我们了解他们的隔夜批处理系统平均花费的时间是否与业内其他银行相同。客户希望使用我们的结果来了解他们今年是否需要在技术方面进行不同的投资。
我们还假设业内普遍认为,所有银行的隔夜批处理作业平均需要≤ 6 小时才能完成。
这是一个大数据问题。我们不可能走遍每一家银行,获得它们所有的批处理作业数据。这将是一项极其费时费钱的工作。我们可以想象我们的人口拥有多少数据。因此,第一步是收集不同银行的良好样本集。
以我们的例子为例,我们可以根据银行的交易规模将它们分类,并从每组的一个成员那里获取一年的批处理作业时间。
样本的选择应使其能最好地代表被测数据的总体。总是花时间思考取样技术
假设分析的成功取决于所选样本的质量。
然后,我们声称银行 A 的隔夜批处理作业平均需要 6 个多小时才能完成。这是我们正在测试的假设。让我们证明它是对的。
在我介绍基础知识的时候,让我们先保持这个想法,然后我会回到这个话题上来。
这让我想到了本文的第二个子主题——测试统计
我们执行以下 5 个步骤来证明索赔:
- 从陈述被广泛相信的主张开始,这就是所谓的零假设。
- 在我们拒绝索赔之前,概述最低显著性水平/置信水平。这可能是 5%。这意味着我们相信大约有 5%的时间,我们的模型会产生不准确的结果。
- 计算样本结果的平均值和标准差
- 计算测试统计数据
- 最后,基于结果,陈述选择的结果。
该图突出显示了五个步骤。我将在下面详细解释这五个步骤
选择的检验统计量取决于样本的分布和样本大小。
下一节将详细解释每个步骤。
4.假设检验
1.陈述你的要求
任何测试都有两个假设:
- 零假设— 什么是公认的真理,什么是我们想要检验的。这就是我们想要证明的错误。对于我们的例子,批处理作业的平均完成时间少于或等于 6 小时。
- 备选假设 —如果零假设不成立,我们需要接受什么。这是我们认为正确的。这是我们对银行的假设。我们的假设是工作的平均时间大于 6 小时。
注意,无效假设和替代假设不能同时为真。
侧注 :这是一个单尾测试。单尾备择假设是单向检验。双尾备择假设检验是双向检验,统计学家感兴趣的是检查数据的相等性,例如某个值是否在某个范围内。
2.确定你的重要性水平:
您的显著性水平表明您对样本和支持您的主张的方法有多大的信心。显著性水平被称为α。阿尔法的通常值是 1%或 5%。阿尔法值越低,意味着你对结果非常有把握。所选择的置信水平构成了风险管理信贷指标的基础。
Alpha 是假设分析中的显著性水平。
详细来说,Alpha 是在零假设被拒绝之前,可以被接受的值的范围。是下限。
3.计算测试统计
高级测试统计概述
我们可以选择 T、Z 或 F 统计。我将简要地解释它们。
一旦选择一个样本来代表一个总体,就可以计算出它的均值和标准差。然后我们进行测试统计。
有许多测试统计数据,如 T、Z、F 等。
我强烈推荐阅读这篇文章,因为它深入解释了三个最重要的统计数据:
[## 理解概率和统计:卡方分布、学生 T 分布和 f 分布
处理数据和统计推断的数据科学家必须知道的话题
towardsdatascience.com](/understanding-probability-and-statistics-chi-squared-student-t-and-f-distributions-e46b4f802707)
T 统计量用于检验两个小总体的均值相等。样本服从 Student T 分布,样本大小约为 30 个观察值。总体标准差未知。
- 示例:您有一个 10 辆汽车的样本,您想测量镇上所有汽车的平均油耗。你的假设是,汽车平均每天消耗 10 升燃料。让我们也考虑一下,你对这个方法有 99%的信心。然后,您可以将假设的平均值与样本平均值进行比较,并根据 99%的 t 分布表计算出是否需要拒绝零假设。
Z 统计量用于检验两个大总体的均值。样本服从正态分布,样本容量通常大于 30。总体标准差是已知的。
- 例子:假设你已经收集了一个 500 人的样本,来估计每天穿蓝色衬衫的平均人数。让我们也考虑一下,你对你的模型有 95%的信心。然后,您可以将假设的平均值与样本平均值进行比较,并根据 95%的 Z 分布表计算出是否需要拒绝零假设。
兰迪·法特在 Unsplash 上的照片
F 统计量用于比较两个总体的方差。变异是每个观察值与其组均值的偏差平方和除以误差自由度。
- 例子:你可以用 f 检验来比较你公司两个 IT 系统软件 bug 的可变性。
每一个测试统计都有自己的简单公式。为了简单起见,我不打算在本文中讨论这些公式。
计算结果时,会根据分布表中的值进行检查。请注意,结果取决于样本大小、标准偏差和样本均值。
我们可以使用 Python 执行测试统计。作为一个实例,要执行 T 检验,我们可以:
from scipy import stats
stats.ttest_ind(collection_one, collection_two)
从计算的结果,我们可以陈述结果。
5.陈述您的结果:
让我们假设我们从测试统计计算中计算出 0.50。现在,我们可以在概率分布表中查找我们选择的 alpha 为 95%的样本值。Z 分布表给出的值为 1.96。当 0.50 ≤ 1.96 时,我们必须接受零假设。
这意味着批处理作业确实在声称的 6 小时时间内完成,而我们的说法是错误的。这就是统计推断的工作原理。
照片由 Aaron Burden 在 Unsplash 上拍摄
5.错误类型:
最后,我想介绍两种类型的错误。了解实验如何出错以及在哪里出错是很重要的。
类型 1 和类型 2
在我们陈述结果时,可能会出现两种类型的错误:
- **第 1 类错误:**零假设正确,但分析证明它是错误的。
- **第二类错误:**零假设是错误的,但分析无法证明它是错误的
摘要
这篇文章解释了统计学领域最重要的课题之一。统计推断是每个数据科学家必须知道的话题。
感谢您的阅读
然后,文章解释了我们如何计算检验统计量和进行假设分析。
这些步骤可用于阐明假设是否正确。它有助于一个人做出有意识的规避风险的决定,并通过量化措施更好地理解我们的数据。
理解概率和统计:数据科学家的概率基础
为统计学家解释概率的关键概念
数据科学领域围绕着概率和统计。因此,对这些概念有一个坚实的理解是至关重要的。
本文意在解释概率的要领。
概率与统计
我将写一些关于概率和统计的文章。他们打算从头开始解释这些概念。
本文是该系列的第一篇。
为什么要从概率入手?
概率无处不在!
这样想吧;概率是不确定性的科学。因此,每当对一个事件的发生有任何怀疑时,概率的概念就被用来估计一个事件发生的可能性。如果我们想预测一个变量的结果,这个变量可以取许多可用值中的一个,那么我们必须涉及概率的数学。我们要做的就是给一个事件分配一个数字,比如明天下雨的可能性是 30%。
考虑到这一点,难道我们一生都要用到概率论吗?我们会在考试、工作和决策中取得成功吗?我们怎样才能增加成功的机会?
因此,理解概率是至关重要的。
明天真的会是晴天吗?股票价格会保持不变直到明天吗?我们有多确定?在接下来的一个小时内,我们接到电话的可能性有多大?
概率是一门极其重要的学科,我决定以概率为主题开始我的系列文章。
根据每个人的兴趣,在随后的文章中,我将解释中心极限定理、大数定律、收敛如何工作、马尔可夫链、概率转移、概率分布的模拟,我们还将更深入地研究联合和边际分布及其估计。我的目标是用简单的方式解释复杂的概念。随后,我还将解释统计的主题。这将为数据科学奠定坚实的基础。
文章目标
本文的目的是解释以下六个要点:
- 什么是概率空间?
- 什么是随机变量?
- 概率规则
- 什么是期望?
- 什么是方差和协方差?
- 什么是概率分布?
1.什么是概率空间?
这一节将通过解释概率空间来开始概率的主题。概率空间的概念构成了概率论的基础,因此理解它是很重要的。
概率空间用于模拟实验。这是一个数学概念,也称为概率三元组。
概率空间有三个组成部分:
概率三元组的三个组成部分
1。一个样本空间:
这是所有可能结果的集合。数学中的集合是元素的独特集合。
作为一个例子,骰子的样本空间是:S= {1,2,3,4,5 和 6}
股票价格运动的样本空间可以是 S = {增加,相同,减少}。由于 Increase 是 S 的一个元素,我们可以把它写成 Increase ∈ S
现在要记住的关键是样本空间可以是一个无限集。例如,一个国家的人口是不断变化的,它是一个具有无限可能性的随机数。
2。事件集合:
这是一个包含结果组合的集合。因此,它是样本空间子集的集合。集合中的每个元素称为一个事件。
例如,掷骰子事件的子集可以是{1}、{1,2}等等。
因此,重要的是要注意样本空间(1)是一组事件(2)的元素。S ∈ F
3。概率度量——事件如何分配给概率的函数:
每个事件都有一个概率。概率可以是 0 到 1 之间的任何值。需要注意的关键是,它是一个不能大于 1 的非负数。值 1 意味着该事件肯定会发生,而值 0 意味着该事件永远不会发生。
作为一个例子,投掷一个不偏不倚的公平骰子可以导致 6 个可能结果中的一个,因此每个结果有 1/6 的概率。因此得到 4 的概率是 P(4) = 1/6
事件发生的可能性越大,概率度量就越高。
显示骰子不同可能结果的草图
所有样本空间的概率之和为 1
空集的概率为 0。这意味着没有结果不会发生。
现在,我想让大家从第一节学到的一个重要概念是,概率测度也是可加的。这意味着,如果我们想要计算一个复杂事件的概率,那么我们可以将组成复杂事件的简单事件的概率相加——只要它们是不相关的。
例如,骰子显示 1 或 4 的概率为
2/6(得到 1 的 1/6 加上得到 4 的 1/6)
2.什么是随机变量?
让我们进入随机变量的下一部分。在阅读金融论文时,我们经常会遇到“可测量的”或“可观察的”这两个术语。术语“可观察”代表实验中可以测量的随机变量。
随机变量本身就是一个函数。它将一个状态空间映射到一组数字,因此随机变量是一个本质上随机的结果。每一个结果都有与之相关的概率。
举例来说,考虑一个国家的 GDP 是一个随机变量。它可以被认为是许多变量和常数的函数。每个事件都有一个与之相关的概率度量。
这个世界充满了随机变量。例如,世界人口取决于时间、掷骰子、掷硬币、一周的天数、利率、汇率、黄金价格等。都是随机变量。
随机变量可以是离散的,也可以是连续的。
2.1 离散随机变量
离散随机变量是一个有有限可能结果的变量。这些结果也可以是无限的,但是要注意的关键是有限的结果集的和应该是 1。
例如,掷骰子、掷硬币、一周中的几天、特定铅笔盒中的颜色、性别、月份、一个月中的几天等等。都是离散随机变量的例子。
2.2 连续随机变量
不是离散的随机变量是连续的随机变量。它有无数可能的结果,无法计算。
例如,依赖于时间、利率、汇率、黄金价格、毫米降雨量等的世界人口。都是连续随机变量的例子。
本节的关键是随机数是结果的函数,其中每个结果都是随机的,并且有与之相关的概率。
3.概率规则
本节将概述概率规则,这对理解概率规则非常重要。
假设我有一枚标准的硬币,有两面:正面和反面。
因此,如果我在空中抛硬币,当它落在我手上时,我可能会看到正面或反面。对于一个公平的硬币,得到正面 P(正面)的概率是 0.5,得到反面 P(反面)的概率也是 0.5。
获得正面的概率为 0.5
0.5 的概率得到尾巴
我们可以看到正面和反面都是两种可能的结果。概率测度之和为 P(正面)U P(反面)= (0.5 + 0.5) = 1。
需要注意的关键是,还是指加。
如果我们掷两枚硬币,那么两次都看到正面的概率是 P(正面)x P(正面)。这就是乘法原理。
如果我们抛两个硬币,那么看到正面或反面的概率是 1,因为 or 意味着加法。这就是加法原理。
这两个事件是相互独立的,因为抛一次硬币不会影响我们下一次试验的结果。
现在,考虑一个稍微复杂的例子。假设我们站在路边,数着从我们身边驶过的汽车的颜色和大小。
这个例子应该有助于我们更好地解释概率规则。
这个圆圈代表路上所有从我们身边驶过的汽车。这是我们的样本集:
下面的红色小圆圈代表所有的红色汽车。r 的补码写成 Rᶜ.A 的补集不是 A 的集合。
在这种情况下,r 以外的任何东西都是 Rᶜ:
一辆车是红色的概率是 P®
车不红的概率是 1-P®
迷你蓝色圆圈代表所有蓝色汽车:
汽车为红色和蓝色的概率为 0,因为它们是不相交的事件。
汽车是红色或蓝色的概率是 P® U P(B) = P® + P(B)
所有大型汽车都画在绿色圆圈中:
在上图中,只有大型红色汽车。这在图像中标记为黄色,显示了红色圆圈与绿色圆圈相交的部分。
一辆车又红又大的概率是:
P(R 和 L) = P® x P(L|R)
这就是众所周知的贝叶斯规则,它是数据科学中需要记住的基本规则之一。
这里的“|”是“鉴于”的意思。这意味着一辆红色大汽车的概率是一辆红色汽车的概率乘以一辆红色大汽车的概率。P(L|R)是条件概率。
这是一个非常强大的公式,我们可以用它在机器学习算法中建立统计推断。
因此,我将为此专门写一篇文章。
4.什么是期望?
在解释什么是期望之前,我想先说明一下中位数的概念。
中位数
如果我们取一组数字,对它们进行排序并计算 CDF,那么区间(a,b)的中值计算如下:
这个公式将给出中点,即集合的索引,也就是中值。注意:a 和 b 是集合的索引,而不是集合的实际元素,例如,在集合{1,5,8,10}中,5 的索引是 2,10 的索引是 4。随后,区间(2,4)的中值为 3。中点 3 指向数值 8。
预期
期望值就是平均值。通过对事件的概率求和来计算: ∑ ₓ pₓ(x)
如果随机变量是连续的,那么期望是∫ xf(x)dx,
如果我们将一个可观察值乘以一个常数,那么新的期望值就是该常数乘以原始期望值:
如果我们把两个可观测量加在一起,那么它们的联合期望是:
两个可观测量是独立的,如果它们的交集不包含任何元素。因此,这两个可观测量彼此不相关,并且它们的联合期望只是将它们的期望相乘:
如果这两个可观测量不是独立的,那么我们需要考虑它们的协方差。
5.什么是方差和协方差?
随机变量可以向任何方向移动。标准差衡量随机变量与其平均值或期望值的偏差。方差是标准差的平方。
如果两个可观测量是独立的,那么没有共同运动,它们的协方差是 0。常数的方差为 0。
一旦我们知道了期望值,我们就可以计算方差:
两个随机变量 X 和 Y 的协方差为:
我们也可以将协方差计算为:
关于协方差,有一些重要的注意事项需要了解:
如果我们取两个可观测值 X 和 Y,给它们各加一个常数,再乘以一个常数,那么协方差将如下变化:
注意,b 和 d 完全消失了,因为它们没有改变 X 或 y 的方差。
如果两个可观测量不是独立的,那么当我们将两个可观测量相加时,它们的联合方差将变成:
在这里,协方差被用作两个变量是相互依赖和相互关联的。
6.什么是概率分布?
让我们进入概率论的核心。我可以向你保证,到目前为止,我们已经学习了数据科学家必须知道的概率学科的基础知识。
每一个花时间评估数据和执行功能工程的数据科学家都必须遇到以下术语;高斯分布、正态分布、二项式分布、泊松分布、指数分布等等。
本节将解释这些概率分布是什么。
让我们来理解概率分布:
随机变量有一个概率分布。它的意思是随机变量 X 的分布是 X 的所有子集的概率的集合。
首先,知道一个随机变量的概率分布是一个非常强大的工具,因为它可以帮助你估计一个变量的运动。
此外,多个随机变量可以具有相同的概率分布。这很有趣,因为如果有两个我们可以测量(观察)的随机变量具有相同的分布,那么我们可以使用第一个变量来了解另一个变量的行为,并将其视为彼此的代理。因此,我们可以建立更好的模型。重要的是要注意,我们不能假设这两个可观测量是相同的,因此评估和理解变量的行为是至关重要的。
如果我们记录一个随机变量的结果及其概率,那么我们可以建立一个概率分布。
一旦我们有了可能的结果集,我们就可以计算它们的概率,然后计算概率的分布。从概率分布,我们可以计算一个概率分布函数。
分布函数必须遵循以下属性:
- 它不是递减的
- 它是右连续的
- 当 x 移动到-无穷大时,它移动到 0,当 x 移动到无穷大时,它移动到 1。
最常见的概率分布
概率分布有它自己的形状、行为和性质。我将解释数据科学项目中最常用的发行版。
6.1 均匀分布
如果所有事件的概率测度相同,则随机变量 X 具有均匀分布。它也被称为矩形分布,因为所有的事件都有一个恒定的概率。
这张草图显示了均匀的分布
形式上,如果可观测值是离散的,那么概率密度函数可以写成:
n 是集合的大小。
例如,如果变量是骰子,则 n 是 6,如果随机变量是硬币,则 n 是 2。
一枚公平的硬币可以处于两种状态之一;正面和反面。每个状态都有 50%的概率发生。因此,公平的硬币有均匀的分布。
如果可观测值是连续的,那么两个区间 a 和 b 之间的概率密度函数可以写成:
b 是最大点,a 是最小点。
因此,分布由两个参数定义:最小值和最大值
例子
我举个例子解释一下均匀分布。
让我们考虑一下,我们正在测量一个城市中 5 岁儿童的平均身高。我们再考虑一下,高度从 0 到 3 英尺是均匀分布的。
一个 5 岁儿童身高从 1 英尺到 2 英尺的概率是:
(2–1 英尺)* (1/3 英尺)= 1/3
6.2 指数分布
这张草图显示了指数分布
当我们想要对事件发生之间经过的时间建模时,大多数连续随机变量具有指数分布。
指数分布围绕着速率参数λ。这个值告诉我们一个事件发生的速率。例如,如果每 10 分钟有一辆红色汽车从我们身边驶过,那么红色汽车从我们身边驶过的速度是每分钟的 1/10。
因此λ是 0.1。
因此λ告诉我们单位时间内事件之间的比率。
指数分布适用于连续的随机变量。
当随机变量具有指数分布时,其分布函数为:
指数分布是无记忆的,它不依赖于过去。
还值得注意的是:
- 指数分布的期望是:1/λ
- 方差为 1/λ
6.3 正态分布
草图显示了正态分布
最重要和最著名的分布之一是正态分布。它出现在中心极限定理中。它也被称为钟形曲线。
正态分布很容易解释。原因是:
- 分布的均值、众数和中位数相等。
- 我们只需要用均值和标准差来解释整个分布。
正态分布也称为高斯分布。它的密度取决于两个参数:均值和方差。
该功能是:
标准的正态分布是 N(0,1)。意味着标准正态分布的随机变量的均值为 0,方差为 1。
请务必注意正态分布的以下属性:
- 将一个数 z 乘以正态分布与将 z 乘以均值和方差具有相同的效果。
- 将数字 z 加到正态分布上的效果与将数字 z 加到平均值上的效果相同。对分布的方差没有影响。
- 如果两个随机数 X 和 Y 是独立的,并且具有正态分布,那么将 X 和 Y 相加将创建一个新的具有正态分布的随机变量 Z。然而,Z 的平均值将是 X 和 Y 的平均值之和,方差将是 X 和 Y 的方差之和。
如果你想了解更多关于正态分布的知识,请阅读这篇文章:
解释为什么高斯分布是如此成功和广泛使用的概率分布
medium.com](https://medium.com/fintechexplained/ever-wondered-why-normal-distribution-is-so-important-110a482abee3)
6.4 伯努利分布
假设我们想抛硬币。结果可能是正面或反面。如果得到正面的概率是 p ,那么得到反面的概率是 1-p。p 的值总是 0 < p < 1
可以取两种可能状态之一的随机变量被认为具有伯努利分布。为了概括起见,我们可以把这两种可能的状态称为成功或失败。成功是指我们的目标事件发生时的状态,而失败是指我们的目标没有发生时的状态。
伯努利分布有一个参数 p:
这张草图显示了伯努利分布
p(成功)= p
p(故障)= 1–p
期望值是 p,方差是 p(1 - p)
举例
我举个例子解释一下伯努利分布。假设交易对手违约的概率为 10%。这意味着有 90%的可能性交易对手会而不是违约。
这是一种伯努利分布,因为交易对手可以采取两种可能状态中的一种。在这种情况下,p 的值是 0.1。
随后,分布的方差为:
*0.1 (1–0.1)= 0.1 * 0.9 = 0.09
6.5 二项式分布
最常用的分布之一是二项分布。它与伯努利分布非常相似。不同的是,我们可以把伯努利分布看作二项分布的特例。
例如,如果我们想要衡量 n 个交易对手的违约,其中每个交易对手可能处于两种可能状态(违约或非违约)中的一种,所有交易对手都具有相同的违约概率(p ),并且它们是独立的,那么变量的分布将是二项式分布。
为了简化,伯努利分布作为二项分布的特例,其中 n 为 1。
考虑到有 n 个独立的随机变量,并且每个变量都有一个带有相同参数 p 的伯努利分布,那么如果我们将这些变量相加,那么它们的总和将是一个带有参数 n 和 p 的二项分布。
概率分布是:
这张草图显示了二项式分布
期望值是 np 方差是 np(1-p)
6.6 几何分布
这张草图显示了几何分布
几何分布真的很有意思。同样,它与二项式分布有些关系。这种分布通常出现在变量中,实验是计算在遇到目标事件之前我们看不到目标事件的次数。
我来详细说明一下。假设我们想测试一个交易对手是否违约。如果我们开始记录已经违约的交易对手的数量,直到我们遇到第一个没有违约的交易对手,那么变量将遵循几何分布。需要注意的是,在这种情况下,交易对手的违约被认为是相互独立的。
几何分布和指数分布是相关的,我们可以将指数分布视为几何分布的连续版本。
几何分布的概率分布函数是:
它非常类似于指数分布;把它想象成指数分布的离散版本。
6.7 泊松分布
这张草图显示了泊松分布
泊松分布与指数分布密切相关。泊松分布总是包含一个时间维度。泊松分布可以帮助我们理解独立事件在未来什么时候会发生。
举例来说,如果我们想测量何时我们会看到一辆红色汽车从我们身边驶过,或者何时一个交易对手会违约,那么随机变量遵循泊松分布。
泊松分布是离散的。该分布围绕一个参数λ,它告诉我们每单位时间内成功的平均次数。
如果存在均值为λ的随机变量 X,则它的概率分布为:
随机变量 X 的期望值为λ,方差为λ。
两个独立泊松分布之和也是泊松分布。
7.摘要
数据科学领域围绕着概率和统计。这篇文章旨在解释我们都应该熟悉的概率的本质。这篇文章是这个系列的第一篇,它仅仅触及了概率和统计的皮毛。
感谢您的阅读
文章阐述了以下六个要点:
- 什么是概率空间?
- 什么是随机变量?
- 概率规则
- 什么是期望?
- 什么是方差和协方差?
- 什么是概率分布?
取决于每个人有多感兴趣,在随后的文章中,我将解释中心极限定理、大数定律、收敛如何工作、马尔可夫链、概率转移,我们还将更深入地研究分布及其估计。这将为统计奠定坚实的基础。
理解概率和统计…
数据和科学之间的桥梁!
迈克尔·泽兹奇在 Unsplash 上的照片
简介
作为有抱负的数据科学家,我们都希望成为一名优秀的程序员,知道所有处理大量数据流的最新方法,但我们经常无法理解生成数据的随机过程、数据的分布及其相互依赖关系。我们都知道如何对数据进行高斯变换,但我们不清楚为什么它如此重要。
我们对概率统计中必须掌握的题目都没有一个清晰的概念。因此,当我们听到一个话题时,我们在互联网上搜索只会得到一大堆链接。就连我刚开始也面临同样的问题。所以我一直想创建一个简洁的文档来概述共同的主题,现在我们来了!
目录
- 概率分布
- 协方差和相关性
- 大数定律
- 中心极限定理
- 参数估计和假设检验
概率分布
当我们从 csv 文件中读取数据时,所有的列标题都让我们了解了某个特定列的内容。如果是“年龄”栏,那么我们知道这一栏中的所有值对应于不同人的年龄。在数学术语中,这个“年龄”被建模为一个变量,更具体地说是一个随机变量,因为产生不同人的年龄的过程是一个产生随机数的变化过程。每个随机变量都有自己的分布和一系列属性-
- 支持:分发的域。
- PMF/PDF :实际概率分布。
- CDF: 累积分布函数,它是分布值小于或等于特定值的事件的实际概率。因为是概率,所以范围在 0 到 1 之间。
- 平均值:观察值的加权平均值;又称期待。
- 方差:来自的观测值的分布均值;它的平方根叫做标准差。
- 中位数:分布的中间值。
- 模式:从分布中取样的频率值。
有两种随机变量-
- 离散的随机变量,在掷硬币中可以有可数个值,如正面/反面,它们的分布可以用概率质量函数(PMF) 来描述。我们将在下面讨论离散随机变量:
- 二项分布
- 二项分布
- 几何分布
- 泊松分布
- 离散均匀分布
2.连续的随机变量取给定数字区间内的所有值,如年龄及其分布可以用概率密度函数(PDF) 来描述。我们将在下面讨论离散随机变量:
- 指数分布
- 连续均匀分布
- 高斯分布
伯努利分布
可以认为是实验的模型,其结果是二元的,即头/尾、是/否等。结果以概率 p 为正,以概率 1-p 为负。
伯努利分布:重要的性质(来源:维基百科)
伯努利分布:PMF 和 CDF(来源:作者)
二项式分布
这个参数为 n 和 p 的分布是伯努利分布的推广情况,其中 n 是随机实验的序列数, p 是每次实验中出现阳性结果的概率。我们可以把它想象成这样的实验:投掷一枚硬币 20 次,计算得到 9 个正面的概率,其中每次试验中正面的概率是 0.6。
二项式分布:重要的性质(来源:维基百科)
二项分布:PMF 和 CDF(来源:作者)
几何分布
这种类型的分布是用成功的概率 p 来模拟伯努利试验的次数,直到第一次成功,就像投掷骰子多次直到第一次出现“1”一样。
几何分布:重要的性质(来源:维基百科)
几何分布:PMF & CDF(来源:作者)
泊松分布
这种分布是为了模拟给定数量的事件 k 在固定的时间或空间间隔内发生的概率,如果这些事件以已知的恒定平均速率λ发生,并且独立于自上次事件以来的时间。示例包括呼叫中心收到的电话数量或每天的电子邮件数量等。
泊松分布:重要的性质(来源:维基百科)
泊松分布:PMF 和 CDF(来源:作者)
离散均匀分布
顾名思义,它用于模拟随机实验,其中 a 和 b (b≥ a)之间的所有离散结果都有相同的可能性,就像投掷公平骰子一样。
离散均匀分布:重要性质(来源:维基百科)
离散均匀分布:PMF 和 CDF(来源:作者)
指数分布
它用于模拟事件以恒定的平均速率λ连续独立发生的过程之间的时间概率分布,例如从现在到地震发生的时间。
指数分布的一个重要性质是“无记忆性”,这可以解释为如果一个事件在 30 秒后还没有发生,发生至少需要 10 秒以上的条件概率就等于在初始时间后观察到该事件超过 10 秒的无条件概率。
指数分布:重要的性质(来源:维基百科)
指数分布:PDF & CDF(来源:作者)
连续均匀分布
它描述了一个实验,其中结果是连续的,即可以取最小和最大值之间的任何值,表示为 a 和 b 。其中一个例子可以是随机数发生器。
连续均匀分布:重要性质(来源:维基百科)
连续均匀分布:PDF & CDF(来源:作者)
高斯分布
这种分布用于表示任何分布未知的实值随机变量。用均值 μ 和方差 σ 来表示。如果我们绘制一组推文中每条推文的字数,我们可以看到形状遵循一条’钟形曲线,并得出结论,分布是高斯或正态。我们将在后面看到为什么这种分布如此重要。
高斯分布:重要的性质(来源:维基百科)
高斯分布:PDF & CDF(来源:作者)
协方差和相关性
协方差测量两个独立随机变量的联合可变性,它们之间关系的强度由相关系数测量。如果协方差为 0,则 2 个随机变量是独立的,但反之不成立。
协方差和相关系数(资料来源:麻省理工开放式课程)
在我们的小示例中,我们使用“数据 1”生成“数据 2”,它们彼此相关,我们可以测量它们的 Spearman 的 相关系数ρ ,其范围从-1 到+1,其中-1 表示最强的负相关,0 表示独立,而+1 表示最强的正相关。
输出将告诉我们这两个变量是正相关的。
data1: Mean=100.192; Variance=399.991
data2: Mean=50.199; Variance=500.785
Covariance between data1 and data2:
[[400.01063636 400.46496352]
[400.46496352 500.81039823]]
Pearson Correlation Coefficient is 0.895 with p-value 0.000
两个随机变量之间的相关性(来源:作者)
大数定律
在统计学中,大数定律(LLN) 是一个定理,它表示如果我们多次进行相同的实验,那么实验结果的平均值应该接近真实平均值。 LLN 很重要,因为它保证了一些随机事件的平均长期稳定的结果,这就是为什么赌场即使在少数情况下赔钱,从长远来看也会赚钱的原因。
从数学上来说,如果同一个实验被执行 n ( n 非常大)次作为独立且相同(i.i.d) 的实验,那么结果的数字平均值将非常接近真实平均值 μ 。
大数定律
因为在下面的例子中,正态随机变量的任何线性组合也是随机的,所以’*数据’*变量的真实平均值是 5 * 0 + 10 = 10。我们将看到,当 n 从 10 增加到 100,000 时,数字平均值将变得更接近真实平均值 10。
如果我们运行上面的代码,我们会看到这个。
Average when n=10 is : 9.5142955459695
Average when n=1000 is : 10.184099506736104
Average when n=10000 is : 10.039233155010294
Average when n=100000 is: 10.013670784412874
中心极限定理
高斯分布的重要性来源于中心极限定理(CLT) 该定理指出,在某些条件下,一个均值和方差有限的随机变量的多次观测值的平均值本身就是一个随机变量,其分布随着样本数的增加而收敛于正态分布,即使原始变量本身不是正态分布。
中心极限定理
如果我们在减去真实平均值并乘以 √n 后绘制居中样本平均值的直方图,我们可以形象地得出结论:分布为高斯分布,平均值为 0。
骰子滚动模拟的样本均值直方图(来源:作者)
参数估计和假设检验
一旦我们确定了一个分布,我们就需要根据它进行统计推断,并对看不见的数据进行假设和验证。有三个主要的过程-
- 估计:识别描述我们分布的参数,了解其统计性质。
- 置信区间:参数的值的上下界,计算参数的值保持在此范围内的置信度(概率)。
- 假设检验:对我们的信念做出假设,并根据数据寻找接受/拒绝的证据。
置信区间
中心极限定理(CLT) 的优点是对于大量的观测值,任何分布都收敛于标准正态分布。
收敛于标准正态分布
上图中箭头的左侧称为实验的检验统计量,如果我们可以计算出检验统计量(Z 得分),我们就可以明确地计算出这个检验统计量大于临界值的概率,相反,如果我们知道概率( p 值,我们就可以计算出临界值,因为在标准正态下不同临界值的概率很容易得到,称为 Z
对于固定的α ∈ (0,1),如果 q_α/2 是 N (0,1)的(1α/2)-分位数,那么概率= 1α(如果 N 足够大(也称为渐近)),估计量的置信区间变成-
置信区间
输出是-
90 percent Confidence Interval is: 49.736, 50.870
假设检验
假设我们掷一枚硬币,我们假设硬币是公平的,即正面的概率是 0.5。这个假设形成了关于实验的假设,这个基线假设称为零假设 h0。另一个假设是硬币是不公平的,我们称之为替代假设 h1。我们掷 200 次,得到 170 次正面。如果我们根据中心极限定理形成检验统计量,我们将得到-
(√200)((170/200)-0.5)/√( 0.5 * 0.5))= 9.89,大于 1.645——标准正态分布的 95%分位数(假设α=0.05)。所以我们可以拒绝零假设*,得出硬币不公平的结论。*
假设检验的第一类错误发生在 h0 被拒绝但实际上为真时,第二类错误发生在 h0 未被拒绝但 h1 为真时。
我们将讨论常见的假设检验及其目的,但在此之前,我们将讨论几个特殊的分布。
学生的 t 分布
应用中心极限定理的假设是样本量很大。如果是小(< 30) then the distribution of the random variables will follow a t-分布而不是高斯分布。
学生的 t 分布:PDF & CDF(来源:作者)
卡方分布
具有 d 自由度的卡方分布(独立变量的数量)是 d 独立标准正态分布之和的分布。所以它的支持永远是正。它用于分布的拟合优度测试。
卡方分布:PDF & CDF(来源:作者)
学生的 t 检验
学生的 t 检验是一种统计假设检验,其中检验统计量遵循 t 分布下的零假设。我们可以想一个例子,看看印度人的平均“身高”在统计上是否与德国人不同。由于两个不同国家的“身高”根据中心极限定理遵循正态分布,并且它们彼此独立,我们可以应用学生的 t 检验。
输出是-
Test Statistic=0.799, p=0.425
Same distributions (fail to reject H0)
配对学生的 t 检验
假设我们测量几个人的血压,使用一些药物,一段时间后再次测量血压,以观察药物的影响。现在样本不是独立的,所以我们需要一个不同版本的 t 检验,叫做配对学生 t 检验。
输出是-
Test Statistic=0.783, p=0.434
Same distributions (fail to reject H0)
方差分析
ANOVA 是当我们有两个以上独立随机变量时 t 检验的推广形式。单向 ANOVA 用于确定 3 个或更多独立随机变量的平均值之间是否存在显著的统计差异。我们可以直接使用单向 ANOVA 并计算 F 统计量,而不是运行成对 t 检验。
如果随机变量是相关的,应进行重复测量 ANOVA 。
我已经在上面的代码中展示了手动计算过程,输出是-
Test Statistic=9.265, p=0.002
Different distributions (reject H0)
==> Native Method To Show the Calculation Method <==
F Statistic: 9.264705882352942
卡方检验
卡方检验是一种统计假设检验,属于拟合优度检验的范畴,其中检验统计量在零假设下预计遵循卡方分布,并用于检验分类变量的观察频率和预期频率之间是否存在统计上的显著差异。
使用权变表表示观察值,如以下代码所示,其中每个观察值都独立于其他观察值,并遵循正态分布。
卡方检验的一个典型示例是确定不同种族和年龄段人群之间的 COVID19 关系,其中不同种族可用作偶然性表的行,不同年龄段可用作列。
输出将是-
Observed Frequencies:
[[ 90\. 60\. 104\. 95.]
[ 30\. 50\. 51\. 20.]
[ 30\. 40\. 45\. 35.]]
dof=6
Expected Frequencies:
[[ 80.53846154 80.53846154 107.38461538 80.53846154]
[ 34.84615385 34.84615385 46.46153846 34.84615385]
[ 34.61538462 34.61538462 46.15384615 34.61538462]]
probability=0.950, critical=12.592, stat=24.571
Dependent (reject H0)
significance=0.050, p=0.000
Dependent (reject H0)
==> Native Method <==
Observed:
[[ 90\. 60\. 104\. 95.]
[ 30\. 50\. 51\. 20.]
[ 30\. 40\. 45\. 35.]]
Expected:
[[ 80.53846154 80.53846154 107.38461538 80.53846154]
[ 34.84615385 34.84615385 46.46153846 34.84615385]
[ 34.61538462 34.61538462 46.15384615 34.61538462]]
Statistic, dof: 24.5712028585826 , 6
常态测试
这种类型的检验属于非参数假设检验,其中我们没有任何要检验的参数,而是检验观察值是否符合正态分布。
Q-Q(分位数-分位数)图 在这里,我们试图形象地测量观察值的潜在随机变量的累积分布函数(CDF) 是否遵循一个正态分布的 CDF,我们绘制一个分布的分位数图。如果它们有相同的 CDF ,那么我们应该看到一条从左下角到右上角的直线。
我们可以生成一些随机数据并查看其分布,稍后我们将看到其 Q-Q 图。
KDE 图的资料(来源:作者)
我们可以看到峰平尾重的“数据”不是正常的*。我们现在将看到它的 Q-Q 图,这也将证实我们的信念,即“数据”不是正态的,在尾部,样本分位数偏离理论分位数。*
数据的 Q-Q 图(来源:作者)
夏皮罗-维尔克检验|达戈斯蒂诺的 K2 检验|安德森-达林检验 所有这三个都是非参数检验,测量我们样本分布的 CDF 与要检查的分布的 CDF 有多远。如果我们使用相同的“数据”变量,我们将看到这 3 个测试也将确认“数据”变量不是正常分布的。
输出将是-
==> Shapiro-Wilk Test <==
Statistic=0.955, p=0.000
Sample does not look Gaussian (reject H0)
==> D'Agostino's K2 Test <==
Statistic=4209.988, p=0.000
Sample does not look Gaussian (reject H0)
==> Anderson-Darling Test <==
Statistic, Critical Values: 55.542 [0.576 0.655 0.786 0.917 1.091]
15.000: 0.576, data does not look normal (reject H0)
10.000: 0.655, data does not look normal (reject H0)
5.000: 0.786, data does not look normal (reject H0)
2.500: 0.917, data does not look normal (reject H0)
1.000: 1.091, data does not look normal (reject H0)
结论
筛选出常见的统计概念并用非常通用的术语解释它们确实是一项艰巨的任务,但我想试一试。如果你已经看完了整篇文章,那么我肯定能为你对概念的理解增加一些价值。如果您有任何建议和意见,请联系我的 LinkedIn 账号。我会带着另一个故事再来。敬请期待!
这篇文章的所有代码都可以在我的 GitHub 资源库中获得,也可以作为 Jupyter 笔记本 获得。
[## Subhamoy Bhaduri -助理-项目-认知| LinkedIn
8.5 年卡和支付领域的工作经验,擅长商户收单业务。#专业知识…
www.linkedin.com](https://www.linkedin.com/in/subhamoybhaduri/)