**** 随机变量
随机变量是一次试验的结果,结果以不同的概率取值域中的不同值。值域离散,则为离散型随机变量。值域连续,则为连续型随机变量。分布列,描述离散型随机变量的取值分布情况。概率密度,描述连续型随机变量的取值分布情况。分布函数F(x) = P(X<=x)。
离散型随机变量的常见分布类型:0-1分布、二项分布、几何分布、泊松分布。连续型随机变量的常见分布类型:均匀分布、正态分布。
一维随机变量 ---> 多维随机变量(最常用的,二维随机变量)
两个随机变量相互独立:P(X<=x, Y<=y) = P(X<=x) * P(Y<=y)。
随机变量的函数也是随机变量。
随机变量的两个重要的数字特征:期望,表示为E(X);方差,定义为(X-E(X))*(X-E(X)的期望,表示为D(X)。
协方差,定义为(X-E(X))*(Y-E(Y))的期望,表示为cov(X,Y)。相关系数,定义为 cov(X,Y)/(√D(X)*√D(Y)),表示为 ρ(X,Y)。|ρ(X,Y)| <= 1,反映两个随机变量的相关程度。
**** 样本及统计量
同一总体上相互独立的n次试验的结果,构成一个容量为n的样本,该样本包含n个随机变量,也可看成一个n维随机变量。样本来自总体,反映总体。
以样本中各个随机变量为自变量的函数称为统计量。统计量也是随机变量,统计量的分布称为抽样分布。通过构造统计量得到一些常用的分布,然后通过查分布表可以定量确定随机变量的概率分布情况。
常用的分布类型:正态分布、卡方分布、t分布、F分布。
统计量的两类应用:参数估计和假设检验。
参数估计问题是从样本出发,构造一些适当的统计量用于总体某些参数或数字特征的估计量。同一个参数要构造什么统计量来估计?可以有两种选择:矩估计量、极大似然估计量。在线性回归问题中,还可以选择最小二乘估计量。
假设检验问题是根据样本信息,判断总体分布是否具有指定的特征。假设检验的一般步骤:1)提出原假设和备择假设;2)构造检验统计量,在原假设为真的条件下,确定该统计量的分布;3)在给定显著性水平下,查统计量所服从的分布表,求出统计量的临界值,确定统计量的拒绝域;4)用样本计算统计量的观测值,若计算得到的观测值落在拒绝域中,则拒绝原假设,否则接受原假设。