概率统计基础

摆烂办不到

已于 2022-09-19 16:05:08 修改

阅读量635

点赞数 1

分类专栏： Machine learning 文章标签：概率论

于 2022-01-01 20:14:30 首次发布

本文链接：https://blog.csdn.net/wuyanxue/article/details/122270473

版权

Machine learning 专栏收录该内容

28 篇文章 5 订阅

订阅专栏

基本概率统计知识

摘要：闲来无事，把基础的概率统计知识复习一遍，主要参考方开泰《统计分布》。

事件和概率

随机试验

在一定条件下一定出现的现象叫必然事件，在一定条件下必然不出现的现象叫不可能事件。有许多现象在一定条件下，可能出现，可能不出现，这种现象称为随机事件，或简称事件。E.g., 事件A: “掷一枚质地均匀的硬币，正面向上”，它可能发生。我们常常通过随机试验来观察随机事件的统计规律性，E.g., 事件"正面向上"是随机试验"掷一枚质地均匀的硬币"的一个可能结果。

一般地，设 $E$ 为一试验，如果不能事先准确地预言它的结果，而且在相同条件下可以重复进行，就称 $E$ 为一随机试验。以 $\omega$ 表示它的一个可能的结果，称 $\omega$ 为E的一基本事件。全体基本事件的集合 $\Omega = \{\omega\}$ 称为基本事件空间或样本空间。

E.g., $E$ 表示在一个箱子里有10个球，上面分别标以 $1,2,\dots,10$ ，若从箱子里随机地取一个球，令 $\omega_i$ 表示球上的数字是 $i$ ，则 $\Omega = \{\omega_1,\dots,\omega_{10}\}$ 。

事件的运算

(1) 如果事件 $A$ 发生必然导致事件 $B$ 发生，就说事件 $B$ 包含 $A$ ，或者说事件 $A$ 包含于 $B$ ，记做 $\subset B$ 。如果 $A\subset B$ 且 $\subset A$ ，则A和B相等，记做 $A = B$ 。

(2) "两事件 $A$ 和 $B$ 中至少有一个发生"也是一个事件，称此事件为 $A$ 与 $B$ 的并，记作 $\cup B$ 。

(3) "两事件 $A$ 和 $B$ 同时发生"也是一个事件，称此事件为 $A$ 和 $B$ 的交，记作 $\cap B$ 。

(4) "事件 $A$ 发生，而事件 $B$ 不发生"也是一个事件，称此事件为 $A$ 与 $B$ 的差，记作 $A - B$ 。

(5) 如果两个事件 $A$ 与 $B$ 不可能同时发生，即 $\cap B = \emptyset$ ，则称 $A$ 与 $B$ 互不相容，或者说互斥。

(6) 如果 $n$ 个事件 $A_1,\dots, A_n$ 中的任意两个事件是互斥的，就说 $A_1, \dots, A_n$ 互斥。

可从集合论的观点看待事件，因为对事件引进的关系和通常在集合论中引进的相应的关系一致。参见下表。
表1. 集合论与概率论的术语对照表

符号	集合论	概率论
$\Omega$	空间	样本空间；必然事件
$\emptyset$	空集	不可能事件
$\omega \in \Omega$	$\Omega$ 中的点	样本点
$\{\omega\}$	单点集	基本事件
$A\subset \Omega$	$\Omega$ 的子集 $A$	事件 $A$
$\subset B$	集合 $A$ 是集合 $B$ 的子集	事件 $A$ 包含于事件 $B$
$A = B$	集合 $A$ 与集合 $B$ 相等	事件 $A$ 与 $B$ 相等
$A\cup B$	集合 $A$ 与 $B$ 的和	事件 $A$ 和事件 $B$ 至少有1个发生
$A\cap B$	集合 $A$ 与 $B$ 的交	事件 $A$ 与 $B$ 同时发生，简记为 $A B$
$A^c$	集合 $A$ 的余集，i.e., $\Omega - A$	事件 $A$ 的逆事件
$A - B$	集合 $A$ 与 $B$ 之差	事件 $A$ 发生而 $B$ 不发生
$A\cap B = \emptyset$	集合 $A$ 与 $B$ 没有公共元素	事件 $A$ 与 $B$ 互不相容

概率及其公理化定义

几种概率计算方法

古典型
对于某一随机事件 $E$ ，如果
(i)全体基本事件 $\omega_1, \dots, \omega_n$ 只有有限个；
(ii) 每个基本事件出现的可能性都相同。
则称 $E$ 为古典型随机试验。
在古典型随机试验中，任意事件 $A$ 对应的概率定义为
$P (A) = 事件 A 包含的基本事件数 (k) / 基本事件总数 (n)$
几何型
一般地，设某一随机试验，其结果(看作一个点)必落在 $\Omega$ 中，并具有均匀性，且试验结果必落在 $\Omega$ 中，而且落在某区域 $\subset \Omega$ 中的可能性大小与 $A$ 的度量大小成正比，而与 $A$ 的位置及形状无关，那么事件 $A$ 的概率定义为
$L(\Omega)$
频率
设 $E$ 为一随机试验， $A$ 为其中任一事件，在相同的条件下，把 $E$ 独立重复试验 $n$ 次，以 $f_n(A)$ 表示事件 $A$ 在这 $n$ 次试验中出现的次数，比值
$F_n(A) = f_n(A) / n$
称为事件 $A$ 在这 $n$ 次试验中出现的频率， $f_n(A)$ 称为 $A$ 在这 $n$ 次试验中出现的频数。

*概率的公理化定义

近代概率论给出了事件与概率的严格定义，源于《测度论》。

定义1.1 设 $\Omega$ 是抽象的点 $\omega$ 的集， $\Omega$ 中的一些子集 $A$ 所成的类为 $\mathcal{F}$ . 如果 $\mathcal{F}$ 满足下列条件
(1) $\Omega \in \mathcal{F}$ ;
(2) 如果 $\in \mathcal{F}$ , 则 $A^c \in \mathcal{F}$ ;
(3) 如果 $A_n \in \mathcal{F} (n = 1,2,\dots)$ ，则 $\bigcup_{n=1}^\infty A_n \in \mathcal{F}$ 。
则称 $\mathcal{F}$ 为 $\Omega$ 的一个 $\sigma$ -代数。

定义1.2 设 $A\in \mathcal{F}$ 是定义在 $\sigma$ -代数 $\mathcal{F}$ 上的实值集函数，如果它满足下列条件
(1) 对每个 $A\in \mathcal{F}$ ，有 $\leq P(A) \leq 1$ ；
(2) $P(\Omega) = 1$ ;
(3) 如果 $A_n \in \mathcal{F} (n = 1,2,\dots)$ ，且 $A_i \cap A_j = \emptyset, i != j$ ，则有
$P(\bigcup_{n=1}^\infty A_n) = \sum_{n=1}^\infty P(A_n),$
就称 $P (A)$ 为 $\mathcal{F}$ 上的概率测度，或简称概率，而称 $\mathcal{F}$ 中的集为事件¹，三元组 $(\Omega, \mathcal{F}, P)$ 为概率空间。

简要来说，
(1) $\Omega$ 是样本空间，是所有可能结果的集合;
(2) $\mathcal{F}$ 是事件的集合，事件是样本空间的子集，基本事件是样本空间的元素；
(3) $P$ 为概率函数，该函数 $\mathcal{F} \rightarrow [0,1]$ 将事件空间中每一个事件映射到从0到1的实值。

根据上述说法，可以归纳出概率的性质：
(1) $P(\emptyset) = 0$
(2) 如果 $A$ 和 $B$ 为两事件，且 $\subset A$ ，则
$\leq P(A - B) = P(A) - P(B)$
从而， $\geq P(B)$ ，且 $P(A^c) = 1 - P(A)$ 。
(3) 对任意 $n$ 个事件 $A_1, \dots, A_n$ ，有
$P(\bigcup_{i=1}^n A_i) \leq \sum_{i=1}^n P(A_i).$
(4) 对任意两个事件 $A$ 和 $B$ ，有
$P(A\cup B) = P(A) + P(B) - P(A\cap B)$
(5) 若$A_1 \supset A_2 \supset \dots $是一个单调下降的事件序列，$ A = \bigcap_{n=1}^\infty A_n$，则
$\lim_{n\rightarrow \infty} P(A_n).$

若$A_1 \subset A_2 \subset \dots $是一个单调上升的事件序列，$ A = \bigcup_{n=1}^\infty A_n$，则
$\lim_{n\rightarrow \infty} P(A_n).$
这5条性质都比较容易理解。

条件概率

条件概率 $P (A ∣ B)$ 是指在事件 $B$ 已发生的情况下，事件 $A$ 发生的概率。
条件概率公式：
$\frac{P(AB)}{P(B)} \geq P(A)$
条件概率具有如下的性质：
(1) $\leq P(A|B) \leq 1$ ;
(2) $P(\Omega|B) = 1$ ;
(3) 若 $A_1,\dots,A_n,\dots$ 是互不相容事件，则
$P(\bigcup_{n=1}^\infty A_n | B) = \sum_{n=1}^\infty P(A_n |B).$

定理1.1(乘法公式) 设 $A_1,\dots,A_n$ 为 $n\geq2$ 个事件,且 $P(A_1A_2\dots,A_{n-1}) > 0$ ，则
$P(A_1\dots A_n) = P(A_1)P(A_2 | A_1) P(A_3 | A_1A_2)\dots P(A_n | A_1\dots A_{n-1})$

设 $A_1,\dots$ 为有限个或无穷个互不相容的事件，且 $\bigcup_{n=1}^\infty A_n = \Omega, P(A_i) > 0, i=1,2,\dots$ ，则称 $\{A_1,A_2,\dots\}$ 为空间的一个划分。

定理1.2(全概率公式) 设 $A_1,A_2,\dots$ 为空间 $\Omega$ 的一个划分，则对任一事件 $A$ ，有
$\sum_{n=1}^\infty P(A_n) P(A|A_n)$

定理1.3(贝叶斯(Bayes)公式) 设 $A_1,A_2,\dots$ 为空间 $\Omega$ 的一个划分，则对任一事件 $A$ ，若 $P (A) > 0$ ，有
$P(A_m | A) = \frac{P(A|A_m)P(A_m)}{P(A)} = \frac{P(A|A_m)P(A_m)}{\sum_{n=1}^\infty P(A_n)P(A|A_n)}$

独立性

若事件 $A$ 发生与否和事件 $B$ 发生与否无关，则称事件 $A$ 与 $B$ 是相互独立的，此时有 $P (A ∣ B) = P (A)$ ，且 $P (A B) = P (B) P (A ∣ B) = P (A) P (B)$ 。

定义1.3 设 $A$ 和 $B$ 为两个事件，如满足
$P (A B) = P (A) P (B) ，$
则称事件 $A$ 和事件 $B$ 是相互独立的。

定义1.4 设 $A_1, \dots, A_n$ 是n个事件，如果对任意的 $\leq s \leq n)$ ，任意 $1\leq i_1 < i_2 < \dots < i_s \leq n$ ，有
$P(A_{i_1},\dots,A_{i_s}) = \prod_{j=1}^s P(A_{i_j}),$

我们说 $A_1,\dots,A_n$ 这n个事件相互独立。

References

[1] https://www.zhihu.com/question/50046323

随机变量及其分布

离散型随机变量

定义1.5 如果随机变量 $X$ 只能取有限个或者可数个值，并以各种确定的概率取这些不同的值，则称 $X$ 为离散型随机变量.

设 $X$ 的取值为 $x_1, \dots, x_i$ ，相应的概率为 $p_i = P(X = x_i),i=1,2,\dots$ ，显然 ${p_i\}$ 满足
(1) $p_i \geq 0, i = 1,2,\dots$ ;
(2) $\sum_{i=1}^\infty p_i = 1$ .
若 $p_i > 0$ ，则相应的 $x_i$ 称为 $X$ 的支撑点，通常用一个二行的数组（称作它的分布）来表示
$\left( \begin{array}{llll} x_1 & x_2 & x_3 & \dots \\ p_1 & p_2 & p_3 & \dots \end{array} \right)$

连续型随机变量

定义1.6 对于随机变量 $X$ ，如果存在一个非负可积函数 $f (x)$ ，使得
$\int_a^b f(x)\text{d}x$
对一切 $-\infty < a < b < +\infty$ 成立，则称 $X$ 为连续型随机变量。此时 $f (x)$ 称为 $X$ 的分布密度函数，简称密度.

分布函数

定义1.7 设 $X$ 为随机变量，令
$\leq x), -\infty < x < \infty,$
则称 $F (x)$ 是 $X$ 的概率分布函数或简称分布函数。

若 $X$ 是离散型随机变量，则它的分布函数为
$\sum_{i:x_i \leq x} p_i.$
当 $X$ 是连续型随机变量时，它的分布函数为
$\int_{-\infty}^x f(t) \text{d}t$

有些分布是离散型分布和连续型分布的叠加。

定义1.8 两个随机变量 $X$ 和 $Y$ 若有相同的分布函数，则记作 $\overset{d}{=} Y$ .

具有相同分布的随机变量 $X$ 和 $Y$ 可能代表完全不同的实际问题。
随机变量的函数(若有意义)仍为随机变量。如 $X$ 是随机变量，则 $X^2, e^X, 1/(1+X^2), \sin(X)$ 仍为随机变量。

随机变量的特征数

在一些问题中，不需要知道随机变量 $X$ 的一切概率性质，只需要知道它的某些性质。
由分布函数 $F (x)$ 算出来的，代表 $F (X)$ 某些特性的数，被称为分布函数 $F (X)$ 的特征数。

数学期望

若 $X$ 为离散型随机变量，有概率分布
$\left( \begin{array}{llll} x_1 & x_2 & x_3 & \dots \\ p_1 & p_2 & p_3 & \dots \end{array} \right)$
，那么它的数学期望是
$\sum_i x_ip_i,$
它反映了 $X$ 的平均性质，有时候称 $E (x)$ 为 $X$ 的均值。
若连续型随机变量 $X$ 的概率密度函数为 $f (x)$ ，那么它的数学期望为
$\int_{-\infty}^\infty xf(x)\text{d} x.$

数学期望的性质
(1) 常数的数学期望等于常数： $E (c) = c$ ；
(2) 若 $c$ 为常数，则有 $E (X + c) = E (X) + c$ ;
(3) 若 $c$ 为常数，则有 $E (c X) = c E (X)$ ;
(4) 若 $X$ 和 $Y$ 是两个随机变量，则 $E (X + Y) = E (X) + E (Y)$ ;
(5) 若随机变量 $X$ 和 $Y$ 独立，则 $E (X Y) = E (X) E (Y)$ .

方差

定义1.9 若随机变量 $X$ 的数学期望 $E (X)$ 存在，且 $E(X)]^2 < \infty$ 存在，则 $X$ 的方差 $\text{Var}(X) = E[X - E(X)]^2$ ；它的开方叫做 $X$ 的标准差，记作 $\sigma(X)$ .

当 $X$ 是离散型随机变量时，容易导出
$\text{Var}(X) = \sum_i p_i[x_i - E(X)]^2.$
当 $X$ 是连续型随机变量时，
$\text{Var}(X) = \int_{-\infty}^\infty [x - E(X)]^2f(x)\text{d}x.$
当 $\text{Var}(X)<\infty$ 时，称 $X$ 有方差存在，否则称 $X$ 的方差不存在。

方差具有如下性质
(1) 如随机变量 $X$ 的方差 $\text{Var}(X)$ 存在，则
$\text{Var}(aX+b) = a^2\text{Var}(X)$
(2) 在计算中，有时常用下面的公式
$Var(X) = E(X^2) - [E(X)]^2.$
(3) 若随机变量 $X$ 的方差 $\text{Var}(X)$ 存在，则对任意 $\epsilon >0$ ，有
$P\{|X - E(X)| \geq \epsilon \} \leq \frac{\text{Var}(X)}{\epsilon^2}$
(4) 若 $\text{Var}(X) = 0$ ，则 $P (X = E (X)) = 1$

高阶矩

高阶矩时对数学期望和方差的进一步推广。

定义1.10 记 $\mu_r'(b) \equiv E[(X-b)^r]$ ，它称为随机变量 $X$ 关于 $b$ 的 $r$ 阶矩(若存在)。特别地，当 $b = 0$ 时，称为 $X$ 的 $r$ 阶原点矩，并简记为 $\mu_r'$ ；当 $b = E (X)$ 时，称为 $X$ 的 $r$ 阶中心矩，简记为 $\mu_r$ .

定义1.11 $\gamma_1 = \mu_3 / \mu_2^{3/2}$ 称为随机变量 $X$ 的偏斜系数； $\gamma_2 = \mu_4/\mu_2^2 - 3$ 称为随机变量 $X$ 的峰态系数； $C_X = \sigma(X) / E(X)$ 称为随机变量 $X$ 的变异系数。

利用 $\gamma_1$ 和 $\gamma_2$ ，可以检验一个分布是不是正态分布或对分布函数进行分类，构造近似分布。

定义1.12 $v_r'(b) \equiv E[|X - b|^r]$ 称为随机变量 $X$ 关于 $b$ 的r阶绝对矩；若 $b = 0$ ，称它为 $X$ 的r阶绝对原点矩，记为 $v_r'$ ；若 $b = E (X)$ ，称它为 $X$ 的r阶绝对中心矩，记为 $v_r$ .

众数、分位点和中位数

定义 1.15 众数是指使得频率函数或密度函数达到极大值的点。当 $X$ 为离散型随机变量时，若 $p_j \geq p_i$ 对一切 $i\neq j$ 成立，则称 $x_j$ 为 $X$ 的众数；当 $X$ 为连续型随机变量时，若 $f(x_0) = \max_x f(x)$ ，则称 $x_0$ 为 $X$ 的众数。

定义 1.16 给定常数 $0 < p < 1$ ，若存在 $\alpha_p$ ，使得
$\alpha_p) \leq p \leq P(X \leq \alpha_p),$
则称 $\alpha_p$ 为随机变量 $X$ 的p分位点。当 $p = 1/2$ 时，相应 $\alpha_{1/2}$ 叫做随机变量 $X$ 的中位数。

若随机变量 $X$ 的分布密度是(柯西分布)
$\frac{1}{\pi(x^2+1)}, -\infty< x< \infty,$
其数学期望不存在，这是因为 $x f (x)$ 的广义积分不收敛，不过它的中位数是0。

矩母函数与特征函数

有些时候可以将分布函数转化为另一种形式，使后者比较好处理。

定义1.17 随机变量 $X$ 的矩母函数 $M (t)$ 定义为
$M(t) = E(e^{tx}), -h < t < h,$
这里 $e$ 是自然对数的底数， $h > 0$ 为某个常数。

显然，若 $X$ 为连续型随机变量，其密度函数为 $f (x)$ ，则
$\int_{-\infty}^\infty e^{tx}f(x) \text{d} x.$
通过矩母函数可以方便地算 $X$ 的各阶原点矩。矩母函数在处理一些问题上比较方便，但不是每一个分布函数都存在矩母函数。于是人们在寻找对一切分布函数都存在的分析工具，就产生了特征函数。为此首先要引进复随机变量的概念。记
$e^{itx} = E(\cos(tX)) + iE(\sin(tX))$

定义1.18 随机变量 $X$ 的特征函数定义为
$\phi(t) = E(e^{itx}).$

显然，当 $X$ 为离散型随机变量时，
$\phi(t) = \sum_k \cos(tx_k)p_k + i\sum_k \sin(tx_k)p_k = \sum_k E^{itx_k}p_k.$
当 $X$ 为连续型随机变量时，
$\phi(t) = \int_{-\infty}^\infty \cos(tx)f(x)\text{d}x + i \int_{-\infty}^\infty \sin(tx)f(x)\text{d}x = \int_{-\infty}^\infty e^{itx} f(x) \text{d}x.$
特征函数总是存在的。他有很多很好的性质，比如：
(1) $\phi(t)$ 是一个有界的连续函数， $|\phi(t)| \leq 1$ 对一切 $t$ 成立；
(2) $\phi(0) = 1$ ;
(3) 若随机变量 $X$ 有 $r$ 阶原点矩存在，则 $\mu_r' = \frac{1}{i^r}\phi^{(r)}(0)$ ；反之，由 $\phi^{(r)}(0)$ 存在不一定保证 $X$ 有 $r$ 阶原点矩，但可以证明 $X$ 有 $r - 1$ 阶原点矩存在。
(4) 若随机变量 $X$ 的各阶原点矩都存在，则它的特征函数为
$\phi(t) = 1 + \sum_{r = 1}^\infty \mu_r' \frac{(it)^r}{r!}$
(5) 若随机变量 $X$ 的特征函数为 $\phi(t)$ ，则 $Y = a + b X$ (a,b为实常数)的特征函数为 $\psi(t) = e^{iat}\phi(bt)$ .
(6) 特征函数与分布函数是一一对应的。即，若 $X$ 的分布函数和特征函数分别是 $F (x)$ 和 $\phi(t)$ ， $Y$ 的分布函数和特征函数分别是 $G (y)$ 和 $\psi(t)$ ，则 $\equiv G$ 当且仅当 $\phi \equiv \psi$ .该性质表明处理特征函数等价于处理分布函数。

定义1.19 若随机变量 $X$ 的各阶原点矩都存在， $\{\mu_{(r)}'\}$ 为它的原点阶乘矩， $\mu_{(0)'} = 1$ ，令
$\sum_{r = 0}^\infty \frac{t^r}{r!}\mu_{(r)}',$
它称为 $X$ 的阶乘矩母函数。

(7) $M(t) = G(e^t - 1)$ .

随机向量及其分布

随机向量

定义1.20 若 $X_1, \dots, X_n$ 是 $n$ 个随机变量，由他们组成的一个数组 $\mathbf{x} = (X_1, \dots, X_n)$ , 叫做随机向量。 $X_1, \dots, X_n$ 叫做 $x$ 的分量。当 $n = 1$ 时，随机向量就化为随机变量。

定义1.21 设 $\mathbf{x} = (X_1, \dots, X_n)$ 为一随机向量。若存在有限个或可数个 $n$ 维数组 $\mathbf{a}_1 = (a_{11}, \dots, a_{1n})$ , $\mathbf{a}_2 = (a_{21}, \dots, a_{2n})$ , …，记
$P(\mathbf{x} = \mathbf{a}_i) = P(X_1 = a_{i1}, \dots, X_n = a_{in}) = p_i.$

且满足 $\sum p_i = 1$ ，则称 $\mathbf{x}$ 为离散型随机向量。

$\left( \begin{array}{llll} \mathbf{a}_1 & \mathbf{a}_2 & \mathbf{a}_3 & \dots \\ p_1 & p_2 & p_3 & \dots \end{array} \right)$
称为 $\mathbf{x}$ 的密度矩阵。若存在一个非负函数 $f(\mathbf{x}) = f(x_1, \dots, x_n)$ 使得对一切 $-\infty < a_i \leq b_i < \infty, i = 1,\dots, n$ 均有
$P(a_1 < X_1 < b_1, \dots, a_n < X_n < b_n) = \int_{a_1}^{b_1} \cdots \int_{a_n}^{b_n} f(x_1, \dots, x_n) \text{d} x_1\dots \text{d} x_n,$
则称 $\mathbf{x}$ 为连续型随机向量， $f(x_1, \dots, x_n)$ 称为它的分布密度。

分布函数

定义1.22 设 $\mathbf{x} = (X_1, \dots, X_n)$ 为一随机向量，对任一 $n$ 维向量 $(x_1, \dots, x_n)$ ，令函数
$F(x_1, \dots, x_n) = P(X_1 \leq x_1, \dots, X_n \leq x_n),$
它称为随机向量 $\mathbf{x}$ 的联合分布函数，或简称分布函数。

函数 $F(\mathbf{x})$ 有如下的性质。
(1) 对每个 $i$ ， $F$ 是 $x_1$ 的单调不降右连续函数；
(2) $F(-\infty, x_2, \dots, x_n) = F(x_1, -\infty, \dots, x_n) = \dots = (x_1, x_2, \dots, x_{n-1}, -\infty) = 0$ ;
(3) $F(\infty,\dots, \infty) = 1$ ;
(4) 若 $\mathbf{x}$ 为离散型随机变量，则它的分布函数为 $F(\mathbb{x}) = \sum_{\mathbf{a}_i \leq \mathbf{x}} p_i$ ;
(5) 若 $\mathbf{x}$ 为连续型随机变量，则它的分布函数为 $F(\mathbb{x}) = \int_{-\infty}^{x_1} \cdots \int_{-\infty}^{x_n} f(t_1, \dots, t_n) \text{d} t_1\dots \text{d} t_n$ ;

边缘分布和独立性

设 $\mathbf{x}$ 为一个 $n$ 维随机向量，它的部分随机变量组成的子随机向量的分布叫做边缘分布。

定义1.23 设 $\mathbf{x}$ 的分布函数为 $F(x_1, \dots, x_n)$ ， $X_1, \dots, X_n$ 的边缘分布函数分别为 $F_1(x_1), \dots, F_n(x_n)$ ，若对任意实数 $x_1, \dots, x_n$ ，有
$F(\mathbf{x}) = F_1(x_1)\dots F_n(x_n),$
则称 $X_1, \dots, X_n$ 相互独立。

条件分布

离散型：设 $X, Y$ 是离散型随机变量，其联合分布为 $x_i, Y = y_j) = P_{ij},i=0,\dots; j=1,0,\dots$ . 记
$\left( \begin{array}{llll} \mathbf{x}_0 & \mathbf{a}_1 & \mathbf{a}_2 & \dots \\ p_0 & p_1 & p_2 & \dots \end{array} \right) \\ Y = \left( \begin{array}{llll} \mathbf{y}_0 & \mathbf{y}_1 & \mathbf{y}_2 & \dots \\ q_0 & q_1 & q_2 & \dots \end{array} \right)$
故根据边缘分布的定义，有
$p_i = \sum_{j} p_{ij}, q_j = \sum_i p_{ij}$
因此
$y_j | X = x_i) = p_{ij} / p_i = p_{ij} / \sum_k p_{ik} \\ P(Y \leq y | X = x_i) = \sum_{j:y_j \leq y} p_{ij} / \sum_k p_{ik}$

连续型：
$\leq y | X = x) = \lim_{\Delta x \rightarrow 0} P(Y \leq y | x \leq X \leq x + \Delta x) = \lim_{\Delta x \rightarrow 0} \frac{F(x+\Delta x, y - F(x,y))}{F(x + \Delta x, \infty) - F(x, \infty)} = \lim_{\Delta x \rightarrow 0} \frac{\int_x^{x+\Delta x}\int_{-\infty}^y f(u,v) \text{d}u\text{d}v }{\int_x^{x+\Delta x}\int_{-\infty}^\infty f(u,v) \text{d}u\text{d}v }$
若 $f_1(x) \neq 0$ 为 $X$ 的密度函数, 则
$\leq y | X = x) = \int_{-\infty}^y \frac{f(x, v)}{f_1(x)} \text{d}v$

摆烂办不到

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
概率统计基础

基本概率统计知识摘要：闲来无事，把基础的概率统计知识复习一遍，主要参考方开泰《统计分布》。文章目录基本概率统计知识事件和概率随机试验事件的运算概率及其公理化定义几种概率计算方法*概率的公理化定义条件概率独立性References随机变量及其分布离散型随机变量连续型随机变量分布函数随机变量的特征数数学期望方差高阶矩众数、分位点和中位数矩母函数与特征函数随机向量及其分布随机向量分布函数边缘分布和独立性条件分布事件和概率随机试验在一定条件下一定出现的现象叫必然事件，在一定条件下必然不出现的现象叫不可能事
复制链接

扫一扫