机器学习,深度学习中的概率论数理统计基础,注意是基础!!!
up阶段性学习整理自用,可能不是那么严谨,各位看个乐子
一、随机变量四种研究方法
1.1 频数
一组数据中某个值出现的次数
频率:一组数据中某个值出现的比例
1.2 数据位置
1.2.1 平均数/均值
- 易受极端值影响
- 数学性质优良
- 数据对称分布或接近对称分布时应用,极端值较少
- 算术平均数
x ‾ = X 1 + X 2 + ⋅ ⋅ ⋅ + X n N \overline{x} =\frac{X_1+X_2+···+X_n}{N} x=NX1+X2+⋅⋅⋅+Xn - 加权平均数
X ‾ = X 1 f 1 + X 2 f 2 + ⋅ ⋅ ⋅ + X m f m f 1 + f 2 + ⋅ ⋅ ⋅ + f m = ∑ i = 1 m X i f i ∑ i = 1 m f i = ∑ i = 1 m X i f i N \overline{X}=\frac{X_1f_1+X_2f_2+···+X_mf_m}{f_1+f_2+···+f_m}=\frac{\sum^m_{i=1}X_if_i}{\sum^m_{i=1}f_i}=\frac{\sum^m_{i=1}X_if_i}{N} X=f1+f2+⋅⋅⋅+fmX1f1+X2f2+⋅⋅⋅+Xmfm=∑i=1mfi∑i=1mXifi=N∑i=1mXifi
1.2.2 众数
- 定义:众数是一组数据中出现最多的数值
- 性质:不受极端值的影响,适合数据量较多时使用。一组数据可能没有众数,也可能有几个众数
1.2.3 中位数
- 定义:中位数是使各变量值与中位数的离差绝对值之和最小的数。
- 性质:不受极端值影响。在有极端值出现时,中位数作为分析现象中集中趋势的数值,比平均值更具有代表性。
- 用途:主要用于顺序数据,也可以用数值型数据,但不能用于分类数据。
1.2.4 四分位数
- 定义:四分位数也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。通俗来说就是将一段有序数据分成四段的三个点,所以四分位数有三个。
- 公式 Q i = i ⋅ n + 1 4 i = 1 , 2 , 3 Q_i=i·\frac{n+1}{4}\qquad i=1,2,3 Qi=i⋅4n+1i=1,2,3
1.3 数据散布
1.3.1 数学期望
- 定义:数学期望是对长期价值的数字化衡量。
一个随机变量的数学期望是一个常数,表示随机变量取值的一个平均,这里用的不是算数平均值,而是以概率为权重的加权平均。数学期望反应了随机变量的一大特征,即随机变量的取值将集中在其期望值附近,这类似于物理中质点组成的质心。 - 数学期望可以在实验前根据概率求得,平均值需要实验完成后根据结果计算,往往可以结合起来使用。
- 在样本区域无穷大时,数学期望和平均值可以画等号。
-
离散型随机变量数学期望的定义
-
P
{
X
=
x
i
}
=
p
i
,
i
=
1
,
2
,
3...
,
P\lbrace X=x_i\rbrace = p_i,i=1,2,3...,
P{X=xi}=pi,i=1,2,3...,若级数
∑
i
=
1
+
∞
x
i
p
i
\sum^{+\infty}_{i=1}x_ip_i
∑i=1+∞xipi 的和为随机变量X的数学期望,即为EX。
即 E X = x 1 p 1 + x 2 p 2 + ⋅ ⋅ ⋅ + x n p n = ∑ i = 1 + ∞ x i p i EX=x_1p_1+x_2p_2+···+x_np_n=\sum_{i=1}^{+\infty}x_ip_i EX=x1p1+x2p2+⋅⋅⋅+xnpn=i=1∑+∞xipi
-
P
{
X
=
x
i
}
=
p
i
,
i
=
1
,
2
,
3...
,
P\lbrace X=x_i\rbrace = p_i,i=1,2,3...,
P{X=xi}=pi,i=1,2,3...,若级数
∑
i
=
1
+
∞
x
i
p
i
\sum^{+\infty}_{i=1}x_ip_i
∑i=1+∞xipi 的和为随机变量X的数学期望,即为EX。
-
连续型随机变量数学期望的定义 E X = ∫ − ∞ + ∞ x f ( x ) d x EX=\int^{+\infty}_{-\infty}xf(x)dx EX=∫−∞+∞xf(x)dx
1.3.2 方差
- 用于描述随机变量与数学期望的偏离程度 D X = ∑ i = 1 n ( x i − X ) 2 n X 为随机变量 X 的算数平均值 DX=\frac{\sum^n_{i=1}(x_i-X)^2}{n}\qquad X为随机变量X的算数平均值 DX=n∑i=1n(xi−X)2X为随机变量X的算数平均值
1.3.3 标准差
- 标准差是通过方差除以样本量再开根得到的,也就是方差的开根 σ = ∑ i = 1 n ( x i − X ) 2 n X 为随机变量 X 的算数平均值 \sigma=\sqrt{\frac{\sum^n_{i=1}(x_i-X)^2}{n}}\qquad X为随机变量X的算数平均值 σ=n∑i=1n(xi−X)2X为随机变量X的算数平均值
- 平均数相同的数据,标准差未必相同
1.3.4 极差
- 又称范围误差或全距Range,用R表示 R = max { x } − min { x } R=\max\lbrace x\rbrace-\min\lbrace x\rbrace R=max{x}−min{x}
1.3.5 四分位数范围
- 第三个四分位数与第一个四分位数的差值称为四分位数间距,即 Q 3 − Q 1 Q_3-Q_1 Q3−Q1
1.4 图形表示
用图形的方式来表示随机变量的分布,根据随机变量的数据可以选择合适的图像表示方法。常用如下:
- 箱型图Box plot:易于观察数据的分布密度 (用四分位点进行绘制)
- 直方图Histogram:统计不同数据范围的频数,无限细化后可拟合概率密度曲线
- 条形图Bar Chart:适应于统计分类型离散数据
- 散点图Scatter Plot:易于观察两个变量的相关性
二、随机变量及其分布
2.1 随机变量的类型和概率分布
- 数据类型有哪些
- 离散型随机变量
- 连续型随机变量
- 什么是分布
概率分布清楚而完整地表示了随机变量X所取值的概率分布情况- 离散型随机变量的概率分布可以用表格形式来表示。具有归一性,累加为1
- 连续型随机变量的概率分布可以用函数来表示。具有归一性,积分为1
- 分类:有理论概率分布和经验概率分布两种
- 理论概率分布:总结出来的常见分布
- 经验概率分布:经验分布函数是对产生样本点的累积分布函数的估计,简单地说是根据样本估计出来的分布。
2.2 常见的离散型分布
2.2.1 两点分布 Bernoulli分布
如果随机变量X的分布如下: P { X = 1 } = p ( 0 < p < 1 ) P\lbrace X=1\rbrace=p\quad(0<p<1) P{X=1}=p(0<p<1) P { X = 0 } = q = 1 − p P\lbrace X=0\rbrace=q=1-p P{X=0}=q=1−p则称X服从两点分布(p为参数)。两点分布也叫伯努利分布或0-1分布。
2.2.2 二项分布
如果随机变量X的概率分布为
P
{
X
=
k
}
=
C
n
k
p
k
q
n
−
k
,
k
=
0
,
1
,
2
,
.
.
.
,
n
P\lbrace X=k\rbrace=C_n^kp^kq^{n-k},\qquad k=0,1,2,...,n
P{X=k}=Cnkpkqn−k,k=0,1,2,...,n
0
<
p
<
1
,
q
=
1
−
p
0<p<1,\quad q=1-p
0<p<1,q=1−p则称X服从参数为n,p的二项分布。其中,二项定理的系数计算方法如下:
C
n
k
=
n
!
k
!
(
n
−
k
)
!
C^k_n=\frac{n!}{k!(n-k)!}
Cnk=k!(n−k)!n!二项分布或用记号
X
∽
B
(
n
,
p
)
X\backsim B(n,p)
X∽B(n,p) 来表示。
服从二项分布的随机变量的直观背景可解释为重复n次服从伯努利分布的实验,某事件A发生的次数X是服从二项分布的随机变量。
- 二项分布的期望: E ( X ) = n ⋅ p E(X)=n·p E(X)=n⋅p 表示某事情发生n次,预期成功多少次。
- 使用条件:
- 实验次数是固定的,用n表示。
- 每一次事件都有两个可能的结果(成功,或者失败)
- 每一次成功的概率都是相等的,成功的概率用p表示
- 感兴趣的(想要的结果)是成功x次的概率是多少
2.2.3 几何分布
- 定义:x次实验中首次成功的概率,也就是第x次实验才成功,前x-1次都失败了的概率。首中即停止。
- 如果随机变量X的概率分布为 P { X = x } = ( 1 − p ) x − 1 p P\lbrace X=x\rbrace=(1-p)^{x-1}p P{X=x}=(1−p)x−1p则称X服从参数为p的几何分布。p为成功概率,即为了在第x次尝试时取得第一次成功,首先需要失败x-1次。几何分布实际上与二项分布十分相似。
- 特点:
- 实验次数是固定的,用n表示。
- 每一次事件都有两个可能的结果(成功,或者失败)
- 每一次成功的概率都是相等的,成功的概率用p表示
- 感兴趣的(想要的结果)是进行x次尝试这个事情,取得第一次成功的概率是多少。
- 几何分布的期望: E ( X ) = 1 p E(X)=\frac{1}{p} E(X)=p1 意义就是实验首次成功最可能的实验次数
2.2.4 泊松分布
- 定义:如果随机变量X的概率分布为
P
{
X
=
k
}
=
λ
k
e
−
λ
k
!
,
k
=
0
,
1
,
2
,
.
.
.
P\lbrace X=k\rbrace=\frac{\lambda^ke^{-\lambda}}{k!},\quad k=0,1,2,...
P{X=k}=k!λke−λ,k=0,1,2,...其中常数
λ
\lambda
λ >0,则称X服从参数为
λ
\lambda
λ 的泊松分布,记为
X
∽
P
(
λ
)
X\backsim P(\lambda)
X∽P(λ) 。
k代表事情发生的次数, λ \lambda λ 代表给定时间范围内事情发生的平均次数 - 例如某抽奖活动中,只知道1天内中奖的平均个数为4个,求一天内恰巧中奖次数为8的概率。 P { X = 8 } = 4 8 8 ! e − 4 = 0.0298 P\lbrace X=8\rbrace=\frac{4^8}{8!}e^{-4}=0.0298 P{X=8}=8!48e−4=0.0298最后泊松概率还有一个重要性质: E ( X ) = D ( X ) = λ E(X)=D(X)=\lambda E(X)=D(X)=λ
- 特点:
- 事件是独立事件
- 在任意相同时间范围内事件发生的概率相同
- 想要知道某个时间范围内,发生某件事情x次的概率是多大
2.2.5 离散型数据分布小结
-
常见离散概率分布有哪些,分布适用于什么场景?
- 两点分布:又称伯努利分布,随机变量X只有两个可能的取值
- 二项分布:感兴趣的是n次实验成功x次的概率是多少
- 几何分布:感兴趣的是进行x次实验,取得首次成功的概率是多少
- 泊松分布:想知道某个时间范围内,发生某件事情x次的概率是多大
-
两点分布和二项分布的区别
- 两点分布是实验次数为1次的伯努利实验
- 二项分布是实验次数为n次的伯努利实验
2.3 常见的连续型分布
- 概率密度函数PDF(Probability Density Function)
-
对于连续型随机变量,由于取值不能一一列举出来,因此不能用离散型随机变量的分布来描述其取值的概率分布情况。但人们在大量的社会实践中发现连续型随机变量落在任一区间[a,b]上的概率,可用某一函数f(x)在[a,b]上的定积分来计算。
-
定义:对于随机变量X,如果存在非负可积函数f(x) (-∞<x<+∞),使对任意a,b(a<b)都有 P { a ≤ X ≤ b } = ∫ a b f ( x ) d x P\lbrace a \leq X\leq b\rbrace=\int^b_af(x)dx P{a≤X≤b}=∫abf(x)dx则称X为连续型随机变量,并称f(x)为连续型随机变量X的概率密度函数,简称概率密度。
-
2.3.1 均匀分布
设连续性随机变量X在有限区间[a,b]上服从概率密度函数 f ( x ) = { 1 b − a a ≤ x ≤ b 0 其他 f(x)=\left\{ \begin{aligned} &\frac{1}{b-a} \quad &a\leq x\leq b\\ &0\quad &其他 \\ \end{aligned} \right. f(x)=⎩ ⎨ ⎧b−a10a≤x≤b其他则称X服从区间[a,b]上的均匀分布,可记成 X ∽ U [ a , b ] X\backsim U[a,b] X∽U[a,b]
2.3.2 指数分布
设连续性随机变量X的概率密度为 f ( x ) = { λ e − λ x x ≥ 0 0 x < 0 f(x)=\left\{ \begin{aligned} &\lambda e^{-\lambda x} \quad &x\geq0 \\ &0\quad &x<0 \\ \end{aligned} \right. f(x)={λe−λx0x≥0x<0其中常数 λ \lambda λ >0,则称X服从参数为 λ \lambda λ 的指数分布,可记成 X ∽ E ( λ ) X\backsim E(\lambda) X∽E(λ) 。指数分布可以用来表示独立随机时间发生的时间间隔。
2.3.3 正态分布
最具有实用意义的理论概率分布
设连续型随机变量X的概率密度为 f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 , − ∞ < x < + ∞ f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma ^2}},\quad -\infty<x<+\infty f(x)=2πσ1e−2σ2(x−μ)2,−∞<x<+∞其中, μ \mu μ 为数学期望、 σ \sigma σ 为标准差。 μ , σ ( σ > 0 ) \mu,\sigma\quad (\sigma>0) μ,σ(σ>0) 都为常数,则称X服从参数为 μ , σ \mu,\sigma μ,σ 的正态分布,记为 X ∽ N ( μ , σ ) X\backsim N(\mu,\sigma) X∽N(μ,σ) 。因曲线呈现钟型,所以又称钟形曲线。当 μ = 0 , σ = 1 \mu=0,\sigma=1 μ=0,σ=1时我们称为标准正态分布。
-
参数对pdf的影响:正态分布参数中,数学期望 μ \mu μ 决定了其位置,方差 σ 2 \sigma ^2 σ2 决定了分布的幅度。
- 具体来说,固定 σ \sigma σ 而改变 μ \mu μ 的值,则正态分布密度曲线沿着x轴平行移动,而形状不变。
- 若固定 μ \mu μ 而改变 σ \sigma σ 的值,则当 σ \sigma σ 越小时,图形变得越陡峭,反之 σ \sigma σ 越大图形越平缓。
-
密度函数关于平均值对称
- 平均值与众数以及中位数同一数值。
- 68.268949%的面积在平均数左右的一个标准差范围内
- 95.449974%的面积在平均数左右的两个标准差范围内
- 99.730020%的面积在平均数左右的三个标准差范围内
- 99.993666%的面积在平均数左右的四个标准差范围内
2.4 经验概率分布
-
经验法则
- 实际应用中,常考虑一组数据具有近似于正态分布的概率分布。若假设正确,约68.3%数值分布在距离平均值有1个标准差之内的范围;约95.4%数值分布在距离平均值有2个标准差之内的范围;约99.7%数值分布在距离平均值有3个标准差之内的范围。称为’68-95-99.7法则‘或’经验法则‘
-
根据大数定律,我们可以知道在抽样次数足够大时,可以吧抽样结果的频率当做是概率。所以经验分布函数的核心思想就是把频率分布函数当做是概率分布函数。
2.4.1 总体与样本
- 总体:所研究的全部元素组成的集合
- 样本:组成总体的每个元素
- 经验概率分布:是基于样本数据得出的概率分布
- 可以用于检验理论假设
- 可以帮助一批未知数据选择最合适的理论分布。尝试确定适当的理论分布时,应该考虑数据生成机制。
2.4.2 z-score
- 别称:z值,z-score,z-values,normal score,standard score,standardized variable。
- z值又称标准分数,是一个数据与均数的差再除以标准差的过程。也就是标准化。z-score通过 x − μ σ \frac{x-\mu}{\sigma} σx−μ将两组或多组数据转化为无单位的z-score分值,使得数据标准统一化,同[[01 统计学]]中的正态分布和t分布章节中的统一化的过程。
2.4.3 标准误差
-
假设数据是正态分布的,那么我们只要知道均值和标准差就知道了分值分布的全部情况。
-
生活中大部分研究目的是预计某个整体的参数,比方总体均值和总体标准方差。前面很多问题的总体是不可统计的,因此需要根据样本来估计总体参数。而一旦有了估计值,另一个问题就随之而来,这个估计的精确程度怎么样。
-
以一种方法反复实验几百次,获得非常多组的样本均值预计。然后取这些均值预计的均值,同时也算出它们的标准方差。然后用正态分布概率表,可以预计出一个范围,包含90%或者95%的这些均值预计,这时我们就可以说整体均值90%或95%会落在这个范围内。我们给这些均值预计的标准差取一个新名字:均值的标准误差,或标准误差standard error,缩写是SE。
-
基于单项实验确定SE的方法,即标准误差的计算公式: 总体标准差: σ = ∑ i = 1 n ( x i − X ) 2 n 样本标准差: S = ∑ i = 1 n ( x i − X ) 2 n − 1 标准误差: σ n = σ n \begin{aligned} &总体标准差:\sigma=\sqrt{\frac{\sum^n_{i=1}(x_i-X)^2}{n}}\\ &样本标准差:S=\sqrt{\frac{\sum^n_{i=1}(x_i-X)^2}{n-1}}\\ &标准误差:\sigma_n=\frac{\sigma}{\sqrt{n}} \end{aligned} 总体标准差:σ=n∑i=1n(xi−X)2样本标准差:S=n−1∑i=1n(xi−X)2标准误差:σn=nσ
-
影响预计精确度的推断
- 研究的规模。显然样本规模n越大,反常数据对结果的影响就越小,估计就越接近整体的均值。所以,n应出在分母中,n越大,标准误差就越小。
- 数据波动。数据波动越小,我们越相信均值预计能精确反映它们。所以 σ \sigma σ应该出现在公式的分子上, σ \sigma σ 越大,结果越大。
-
所以标准差实际上反映的是数据点的波动情况,而标准误差则是样本均值的波动情况。标准误差可以反映用样本均值来估计总体均值的可靠性。标准误越小,表明当前用样本均值来估计总体均值的做法越可靠。本质上二者都是标准差,但标准差反映的是一种数据与均值的偏离程度,而标准误反映的是一种差错,即用样本统计量去预计整体参数的时候,对其差错大小(预计精度)的衡量。
-
标准误的意义:反映数据点围绕均值的分布情况,越小越稳定,就越能用样本去衡量总体。
2.4.4 置信区间
-
定义:置信区间是指样本由样本统计量所构造的总体参数的估计区间
-
什么是置信区间:上一节针对标准误差SE,我们提到了某个值范围,我们有95%或者99%的信心觉得真实值就在其中。我们称这个值范围为置信区间,缩写是CI。
-
计算:在正态分布表上,95%的区域处于-1.96SD到+1.96SD之间。所以95%置信区间的CI公式为
95%CI = 均值 ± (1.96 * SE) -
SE反映的是数据点环绕均值的分布状况,是数据报告中必须有的指标。SE反映均值波动情况,是反复研究多次后,期望得到的差异程度。SE自身不传递非常多实用的信息。主要功能是计算95%和99%的CI。
-
意义:反映整体均值存在的范围,是通过标准误得到的。