统计学基础快速入门_统计学快速掌握-CSDN博客

统计学基础快速入门

一、随机变量与状态空间 (Stochastic Variables and State Space)
二、什么是概率?频率学派与贝叶斯学派 (Frequentist vs Bayesian )
- 1、频率学派 - Frequentist
- 2、贝叶斯学派 - Bayesian
三、离散型分布 - Discrete Distributions
四、连续型分布 - Continuous Distributions
五、似然与概率 - Likelihood vs Probability
- 1、伯努利过程 - Bernoulli Process
- 2、推论：极大似然估计 - Inference：Maximum Likelihood Estimation (MLE)
六、联合概率 - Joint Probabilities
- 1、两个骰子 - Two Dice
- 2、自变量/独立变量 - Independent Variables
七、边际概率 - Marginal Probability
八、条件概率 - Conditional Probability
九、求和法则与乘积法则 - Sum and Product Rule
十、贝叶斯定理 - Bayes' Rule/Law/Theorem
修改时间

一、随机变量与状态空间 (Stochastic Variables and State Space)

随机变量是状态空间中取的定值：
例如：硬币：状态空间: ${'H', 'T'\}$
例如：骰子：状态空间: ${'1','2','3','4','5','6'\}$
在这里插入图片描述

对于以上状态空间，一般情况下使用 数字表示 (numerical representations):
例如：使用 ${0,1}$ 表示 H (head) 和 T (tails) 或者 ‘0’ 和 ‘1’。

数字表示在算法中非常重要，但是不要忘记这些数字表示的是真实世界的结构。

$X =^{'} T^{'}$ 意味着我们观察了一个事件(event)或者记录了一个随机过程的结果(output)，决定了我们随机变量的值。
经常使用拉丁大写字母表示随机变量
我们给结果(output) 分配概率： $P (X =^{'} T^{'}) = 0.5$
$X$ 随机变量 表示一个实验的观察结果：‘我们抛一枚硬币’
$^{'} T^{'}$ 表示一个可能的结果，它必须是状态空间中的元素，比如’tails’是集合 ${'heads','tails'\}$ 中可能出现的元素。
结果是相互排斥的(mutually exclusive)
原则上，状态空间上的每一个元素都可能是一个结果
我们表示结果 $i$ 的概率(probability) 为 $P_i$
$0\le P_i\le 1$ - 每个结果概率都处在0-1之间，并且包括两边。
$\sum_i P_i=1$ - 每个结果概率的总和为 1。
加法法则(Sum rule)：互斥事件的总概率等于各事件概率之和 $P_a + P_b$

二、什么是概率?频率学派与贝叶斯学派 (Frequentist vs Bayesian )

1、频率学派 - Frequentist

概率是在大量相同的实验中做出的估计，就像抛硬币，正反面都为0.5这就是频率
不需要事先相信
假设任何实验都是可重复的(repearable)，但这通常是有问题的，很难做到有完全相同的实验
会导致参数的有偏估计(biased estimates)
频率学派似乎在高中教学中最受欢迎

2、贝叶斯学派 - Bayesian

概率表达了一种主观的信仰程度(a subjective degree of belief)，通过 $0\le p\le 1$ 量化表示。
需要一个先验信念(prior belief)：参数的概率分布。
在数据面前，先验概率(prior probabilities)被调整为后验(posterior)
后验概率分布更窄，更接近“真”值
能在不允许重复的实验中量化概率
没有选择先验的系统方法

三、离散型分布 - Discrete Distributions

伯努利分布、二项分布以及多项分布 (zhihu)
R统计学(01): 伯努利分布、二项分布
 Bernoulli distribution (wikipedia)
Binomial distribution (wikipedia)

1、期望值、方差(Expectation values, Variance)

如果在一个离散的状态空间中定义函数 $f (x)$ ，例如：对于状态空间中的每一个 $x_i$ 我们有 $f(x_i)$ ，于是期望值(expectation value)是：
$\begin{aligned}E[f]=\sum_i P(x_i)f(x_i)\end{aligned}$
即每个结果发生的概率 $\times$ 该结果的值，将其总和得到的就是期望值。

这个方差是：
$\begin{aligned}var[f]=E[(f(x)-E[f(x)])^2]\end{aligned}$

同时也可以写成：
$\begin{aligned}var[f]=E[f(x)^2]-E^2[f(x)]]\end{aligned}$

2、伯努利分布 Bernoulli

在这里插入图片描述

数据点 $x_i$ ， $i\in\{1, ..., N\}$
$x_i\in\{0,1\}$ ，只有两个结果。

$Ber(x|\mu)=\mu^x(1-\mu)^{1-x},0\le\mu\le 1$

这里只有两个概率：

$Ber(x|\mu)=(1-\mu)$
$Ber(x|\mu)=\mu$

这正是我们对一枚有偏见的(biased)硬币所期望的。期望:
$E[x]=\sum_i P(x_i)f(x_i)=0\times(1-\mu)+1\times\mu=\mu$
$var[x]=E[f(x)^2]-E^2[f(x)]]=\mu-\mu^2=\mu(1-\mu)$

3、二项分布(随机漫步) - Binomial - AKA Random Walk

随机漫步 (baike)
二项分布是 $N$ 次伯努利分布实验的概率分布
在这里插入图片描述

$Bin(m,N|\mu)=\binom{N}{m}\mu^m(1-\mu)^{N-m}$
这里：
$\binom{N}{m}=C^m_N=\frac{N!}{(N-m)!m!}$

遵从伯努利实验
总共 $N$ 步
向右 $m$ 步的概率，向左 $N - m$ 步的概率：
$\mu^m(1-\mu)^{N-m}$

$E[x]=n\sum_i P(x_i)f(x_i)=n(0\times(1-\mu)+1\times\mu)=n\mu$
$var[x]=n(E[f(x)^2]-E^2[f(x)]])=n(\mu-\mu^2)=n\mu(1-\mu)$

$\binom{N}{m}个方法到达m$

四、连续型分布 - Continuous Distributions

1、概率密度函数 - Probability Density Function

通过面积积分求概率
如何通俗的理解概率密度函数？(zhihu)
在这里插入图片描述

在区间 $I$ 内有 $\int_a^b f(x)dx=1$ ，这里 $I = (a, b), [a, b), (a, b], [a, b]$
对于 $I$ 的每个子区间 $I_0$ ， $0\le\int_{I_0}f(x)dx\le 1$
从负无穷到正无穷对f(x)积分面积始终为1
$x\in I, f(x)\lt 1$

$P (x)$ 在区间 $I = [a, b]$ 内，函数 $f (x)$ 的期望(Expecration) 为：
$E[f(x)]=\int_a^bf(x)P(x)dx$
方差(Variance)为：
$var[f(x)]=E[(f(x)-E[f(x)])^2]$

2、均匀分布 - Uniform Distribution

均匀分布 (baike)
Continuous uniform distribution (wikipedia)
在这里插入图片描述

每个实数的概率都是0
某区间的一些数是被定义好的
模拟:机器精度高，所以在某种程度上离散
均匀分布是模拟其他分布的基础
如果 $x_i$ 是均匀分布的，那么 $f(x_i)$ 就不是
$f (x)$ 非线性
仿真的质量取决于伪随机发生器的质量
种子(seed)初始化模拟:再现性(reproducibility)

3、高斯分布(正态分布) - Gaussian/Normal Distribution

在这里插入图片描述

经常出现在自然中，例如：身高，IQ
任意分布的定长和服从近似高斯分布：中心极限定理(central limit theorem)。在自然界与生产中，一些现象受到许多相互独立的随机因素的影响，如果每个因素所产生的影响都很微小时，总的影响可以看作是服从正态分布的。中心极限定理就是从数学上证明了这一现象。
$\mu:$ 中心的位置； $\sigma:$ 分布的宽度
$\begin{aligned}N(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2\sigma^2}(x-\mu)^2}\end{aligned}$
$\begin{aligned}E[N(x|\mu,\sigma^2)]=\mu\end{aligned}$
$\begin{aligned}var[N(x|\mu,\sigma^2)]=\sigma^2\end{aligned}$

中心极限定理 (baike)
Central limit theorem (wikipedia)

五、似然与概率 - Likelihood vs Probability

概率（probability)、似然（likelihood)、极大似然法 (sina)
如何理解似然函数? (zhihu)

1、伯努利过程 - Bernoulli Process

在这里插入图片描述

有一系列来自伯努利过程的数据点： $x_1='H',x_2='T',x_3='T'$
如果我们假设 $\mu$ 已知，实现这些特定数据点的概率为：
$(1-\mu)\mu^2=Ber(x=0|\mu)Ber(x=1|\mu)Ber(x=1|\mu)$
如果我们不知道 $\mu$ 然后考虑 $\mu$ 的质量函数(quantity function)，我们叫它为似然(likelihood)

2、推论：极大似然估计 - Inference：Maximum Likelihood Estimation (MLE)

给定一个观测值序列：‘HTTTHHHTTTTHHHT’，我们如何求出 $\mu$ ，即硬币正面的概率？（如果硬币不均匀，有其他因素影响使得正面不是0.5，0.3? 或者 0.8?）
策略：写下观测值的似然，那么最大的似然记为 $\mu$
这个方法就叫做极大似然估计(Maximum Likelihood Estimation)
观察伯努利中的事件是独立同分布的(independently identically distributed, idd)
这意味着你可以将观察结果按任何顺序重新排列，而不会影响似然。

假设’H’有7次，'T’有8次，似然函数为 $\mu^7(1-\mu)^8$ ，‘H’=1，‘T’=0。一般情况下：
$P(D|\mu)=\mu^{N_1}(1-\mu)^{N-N_1}$
$N ：$ 为总观测值。 $N_1$ 为 $H$ 的观测值。
需要最大化 $\mu$

有很好的理由考虑对数似然(the logarithm likelihood)

$\mu$ 出现在指数(exponents)中，使用对数(logarithm) 可以简化。
极小数的对数是负数，但却是“正常”数

$\ln P(D|\mu)=N_1\ln\mu+(N-N1)ln(1-\mu)$

寻找能最大化似然的 $\mu$ 值，记为 $\mu_{ML}$ :
$\begin{aligned}\frac{d\ln P(D|\mu)}{d\mu}|_{\mu=\mu_{ML}}=0\end{aligned}$
结果是：
$\begin{aligned}\frac{N_1}{\mu_{ML}}-\frac{N-N_1}{1-\mu_{ML}}=0\end{aligned}$
求解 $\mu$ ：
$\begin{aligned}\mu_{ML}=\frac{N_1}{N}\end{aligned}$

稍后我们将看到MLE容易出现过拟合(overfitting)

六、联合概率 - Joint Probabilities

1、两个骰子 - Two Dice

在这里插入图片描述

2、自变量/独立变量 - Independent Variables

表：两个向量**张量(tensor)**的乘积
$P_1=(0.17,0.18,0.15,0.14,0.16,0.2)$
$P_2=(0.166,0.166,0.166,0.168,0.168,0.166)$
独立状态空间： $6$ 个元素
联合状态空间： $6^2$ 维度灾难(curse of dimensionality)
表是不对称的(asymmetric)
但是独立显示：
$P(X_1='i',X_2='j')=P(X_1='i')P(X_2='j')$