随机抽样
#等可能不放回的随机抽样:
#sample(x,n),x要抽取的向量,n为样本容量。
sample(1:52,4)
#等可能有放回随机抽样:
#sample(x,n,replace=TRUE),replace=TRUE表示有放回,=FALSE表示不放回
#例如抛一枚均匀的硬币10次:
sample(c("H","T"),10,replace = T)
#掷骰子10次:
sample(1:6,10,replace = T)
#不等可能的随机抽样
#sample(x,n,reaplce=TRUE,prob=y),prob用于指定x中元素出现的概率
#例如一名外科医生做手术成功的概率为0.90,那么10次手术表示为:
sample(c("S","F"),10,replace = T,prob = c(0.9,0.1))
排列组合与概率的计算
- 从一幅完全打乱的52张扑克中取4张,求以下事件的概率:
1) 4张依次为红心A,方块A,黑桃A和梅花A的概率;
2)抽取的4张为红心A,方块A,黑桃A和梅花A的概率;
解
1)抽取的4张是有次序的,因此使用排列来求解。所求的事件(记为A)概率为
P ( A ) = 1 52 × 51 × 50 × 49 P(A) = \frac1{52×51×50×49} P(A)=52×51×50×491
2)抽取的4张是没有次序的,因此使用组合数来求解。所有的事件(记为B)概率为
P ( B ) = 1 ( m n ) P(B) = \frac1{(^n_m)} P(B)=(mn)1, 其中 ( m n ) = n ! m ! ( n − m ) ! (^n_m)=\frac {n!}{m!(n-m)!} (mn)=m!(n−m)!n!
#1)
1/prod(52:49)
#2)
1/choose(52,4)
概率分布
离散分布的分布律
- 贝努里分布:
binom(1,p)
意义:一试验中有二个事件:成功(1)与失败(0),出现的概率是分别为p和1-p,则一次试验成功的次数服从一个参数为p的贝努里分布。
分布律:
f ( x ∣ p ) = p x ( 1 − p ) 1 − x , x = 0 , 1 ( 0 < p < 1 ) . f(x|p)=p^x(1-p)^{1-x}, x=0,1(0<p<1). f(x∣p)=px(1−p)1−x,x=0,1(0<p<1).
数字特征:
E ( X ) = p , V a r ( X ) = p ( 1 − p ) . E(X)=p,Var(X)=p(1-p). E(X)=p,Var(X)=p(1−p). - 二项分布:
binom(n,p)
意义:贝努里试验独立重复n次,则试验成功的次数服从一个参数为(n,p)的二项分布。
分布律:
f ( x ∣ n , p ) = ( p n ) p x ( 1 − p ) n − x , x = 0 , 1 , . . . , n f(x|n,p)=(^n_p)p^x(1-p)^{n-x}, x=0,1,...,n f(x∣n,p)=(pn)px(1−p)n−x,x=0,1,...,n
数字特征:
E ( X ) = n p , V a r ( X ) = n p ( 1 − p ) . E(X)=np,Var(X)=np(1-p). E(X)=np,Var(X)=np(1−p).
特例:n=1时分布为贝努里分布。 - 多项式分布:
multinom(n,p1,...,pk)
意义:一试验中有 k k k个事件 A i , i = 1 , 2... , k A_i,i=1,2...,k Ai,i=1,2...,k, 且 P ( A i ) = p i ( 0 < p i < 1 , ∑ i = 1 k p i = 1 ) P(A_i)=pi (0<pi<1,\sum^k_{i=1}p_i=1) P(Ai)=pi(0<pi<1,∑i=1kpi=1)。将此试验独立地重复 n n n次,则事件 A 1 , A 2 , . . . , A k A_1,A_2,...,A_k A1,A2,...,Ak出现的次数服从一个参数为 ( n , p ) (n,p) (n,p)的多项分布,其中p= ( p 1 , p 2 , . . . , p k ) (p_1,p_2,...,p_k) (p1,p2,...,pk)
分布律:
f ( x 1 , . . . , x k ∣ n , p ) = n ! x 1 ! . . . x k ! p 1 x 1 p 2 x 2 . . . p k x k , 0 ≤ x i ≤ n , ∑ i = 1 k x i = n . f(x_1,...,x_k|n,p)=\frac{n!}{x_1!...x_k!}p^{x1}_1p^{x2}_2...p^{xk}_k, 0\le x_i\le n,\sum_{i=1}^kx_i=n. f(x1,...,xk∣n,p)=x1!...xk!n!p1x1p2x2...pkxk,0≤xi≤n,∑i=1kxi=n.
…
… - 负二项分布:
nbinom(k,p)
- 几何分布:
geom(p)
- 超几何分布:
hyper(N,M,n)
从装有N个白球和M个黑球的罐子中不放回地取出 k ( ≤ N + M ) k(\le N+M) k(≤N+M)个球,则其中的白球数据服从超几何分布。 - 泊松分布:
pois(
λ \lambda λ)
单位时间,单位长度,单位面积,单位体积中发生某一件事的次数常可以用泊松(Poisson)分布来刻划,例如某段高速公路上一年内的交通事故数和某办公室一天中收到的电话数可以认为近似服从泊松分布。
连续分布的密度函数
- 贝塔分布:
Beta(a,b)
在贝叶斯分析中,贝塔分布常作为二项分布参数的共轭先验分布。 - 均匀分布:
unif(a,b)
区间|a,b|上随机投点对应的坐标服从[a,b]上的均匀分布。 - 柯西分布:
cauchy(a,b)
柯西分布(又称为Lorentz分布)用于描述共振行为。以一随机的角度投向X轴的水平距离服从柯西分布。 - 威布尔分布:
weibull(a,b)
最为常用的寿命分布,用来刻划滚珠轴承、电子元器件等产品的寿命。 - 指数分布:
exp(
λ \lambda λ)
泊松过程的等待时间服从指数分布。形状参数b=1的Weibull分布为指数分布。 - 瑞利(Rayleigh)分布:
rayl(b)
瑞利分布为Weibull分布的又一个特例:它是参数为 ( 1 / ( 2 b 2 ) , 2 ) (1/(2b^2),2) (1/(2b2),2)的Weibull分布。 - 正态分布/高斯分布:
n
o
r
m
(
μ
,
σ
2
)
norm(\mu,\sigma^2)
norm(μ,σ2)
高斯分布是概率论与数理统计中最重要的一个分布。中心极限定理表明,一个变量如果是由大量微小的、独立的随机因素的叠加结果,那么这个变量一定是正态变量。因此许多随机变量可以用高斯分布表述或近似描述
密度函数:
f ( x ∣ μ , σ ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 , − ∞ < ∞ , ( − ∞ < μ < ∞ , σ > 0 ) f(x|\mu,\sigma)=\frac1{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}, -\infty < \infty, (-\infty <\mu<\infty,\sigma>0) f(x∣μ,σ)=2πσ1e−2σ2(x−μ)2,−∞<∞,(−∞<μ<∞,σ>0)
数字特征:
E ( X ) = μ , V a r ( X ) = σ 2 E(X)=\mu, Var(X)=\sigma^2 E(X)=μ,Var(X)=σ2 - 对数正态分布:
l
n
o
r
m
(
μ
,
σ
2
)
lnorm(\mu,\sigma^2)
lnorm(μ,σ2)
l n ( X ) ln(X) ln(X)服从参数为 ( μ , σ 2 ) (\mu,\sigma^2) (μ,σ2)的正态分布,则X服从参数为 ( μ , σ 2 ) (\mu,\sigma^2) (μ,σ2)的对数正态分布。 - 逆正态分布:
i
n
o
r
m
(
μ
,
λ
)
inorm(\mu,\lambda)
inorm(μ,λ)
正态随机变量的倒数服从的分布。 - 伽马分布:gamma(a,b)
- 逆伽马分布:igmma(a,b)
- 卡方
χ
2
\chi^2
χ2分布:chisq(n)
n个独立正态随机变量的平方和服从自由度为n的卡方分布。 - 逆卡方分布:ichisq(n)
- t分布:t(n)
随机变量x和y独立,x服从标准正态分布,y服从自由度为n的卡方分布,则 T = X Y / n T=\frac X{\sqrt {Y/n}} T=Y/nX服从自由度为n的t分布。 - F分布:f(n,m)
随机变量x和y独立,x服从自由度为n的卡方分布,y服从自由度为m的卡方分布,则 T = X / n Y / n T=\frac {X/n}{ {Y/n}} T=Y/nX/n服从自由度为(n,m)的F分布。 - logistic分布:logis(a,b)
生态学中的增长模型常用logistic分布来刻划,它也常用于logistic回归中。 - Dirichlet分布:
D
i
r
i
c
h
l
e
t
(
α
1
,
.
.
.
,
α
k
)
Dirichlet(\alpha_1,...,\alpha_k)
Dirichlet(α1,...,αk)
在贝叶斯分析中可作为多项分布参数的共轭分布。 - Pareto分布:pd(a,b)
财富的分配规则是大部分的财富(80%)被少数(20%)的人拥有,这可以较好地用Pareto分布来刻画。 - 非中心分布
- 非中心卡方分布 c h i s q ( n , μ ) chisq(n,\mu) chisq(n,μ)
- 非中心的t分布 t ( n , μ ) t(n,\mu) t(n,μ)
- 非中心的F分布 F ( n , m , μ ) F(n,m,\mu) F(n,m,μ)
R中内嵌的分布
分布名称 | R名称 | 选项 |
---|---|---|
beta | beta | shape1,shape2 |
binomial | binom | size,prob |
Cauchy | cauchy | location=0,scale=1 |
chi-sqaured ( χ 2 ) (\chi^2) (χ2) | chisq | df,ncp |
exponential | exp | rate |
Fisher-Snedecor(F) | f | df1,df2,ncp |
gamma | gamma | shape,scale=1 |
geometric | geom | prob |
hypergeometric | hyper | m,n,k |
logistic | logis | location=0,scale=1 |
mutinomial | multinom | size,prob |
normal | norm | mean=0,sd=1 |
negative binomial | nbinom | size,prob |
Poisson | pois | lambda |
Student’s(t) | t | df |
uniform | unif | min=0,max=1 |
Weibull | weibull | shape,scale=1 |
Wilcoxon’s statistics | wilcox signrank | m,n n |
对于所给的分布名称,
加前缀“d”(代表密度函数, density)就得到R的密度函数(对于离散分布, 指分布律);
加前缀“p”(代表分布函数或概率, CDF)就得到R的分布函数;
加前缀“q”(代表分位函数, quantile)就得到R的分位数函数;
加前缀“r”(代表随机模拟, random)就得到R的随机数发生函数.
查找分布的分位数,用于计算假设检验中分布的临界值或置信区间的置信限。例如,显著性水平为5%的正态分布的双侧临界值是:
> qnorm(0.025)
[1] -1.959964
> qnorm(0.975)
[1] 1.959964
计算假设检验的p值。比如自由度df=1的 χ 2 = 3.84 \chi^2=3.84 χ2=3.84时的 χ 2 \chi^2 χ2检验的p值为
> 1-pchisq(3.84,1)
[1] 0.05004352
容量为14的双边t检验的p值为
> 2*pt(-2.43,df=13)
[1] 0.0303309
应用:中心极限定理
中心极限定理
当独立观察的样本容量n足够大是,所观察的随机变量的和近似服从正态分布。
# runif:分布为[0,1]的均匀分布
# distpar:随机函数的参数,比如对二项分布,[1]为试验次数,[2]为每次试验的概率
# m:分布的均值
# s:分布的标准差
# n:样本容量有4个:1,3,10,30
# 重复次数为1000
limite.central <- function (r=runif, distpar=c(0,1), m=.5,
s=1/sqrt(12),
n=c(1,3,10,30), N=1000) {
#依次调用n内的数值
for (i in n) {
if (length(distpar)==2){
#将每组概率事件并入一列
x <- matrix(r(i*N, distpar[1],distpar[2]),nc=i)
}
else {
x <- matrix(r(i*N, distpar), nc=i)
}
#计算随机变量的和的分布
x <- (apply(x, 1, sum) - i*m )/(sqrt(i)*s)
hist(x,col='light blue',probability=T,main=paste("n=",i),
ylim=c(0,max(.4, density(x)$y)))
lines(density(x), col='red', lwd=3)
curve(dnorm(x), col='blue', lwd=3, lty=3, add=T)
if( N>100 ) {
rug(sample(x,100))
}
else {
rug(x)
}
}
}
举例
二项分布:b(10,0.1)
op <- par(mfrow=c(2,2))
limite.central(rbinom,distpar = c(10,0.1),m=1,s=0.9)
泊松分布:pois(1)
limite.central(rpois,distpar = 1,m=1,s=1,n=c(3,10,30,50))
…
…