程序员学CFA——数量分析方法(三)

概率论基础

概率论的基本概念

概率论的相关术语

随机变量

自然界与社会实践中产生的现象是多种多样的,根据各种现象的结果分布,可以将其分为确定性现象和随机性现象两类。在一定条件下,只有可能出现一个结果的现象,称为确定性现象。比如,在标准大气压下,水加热到100℃必然沸腾;在重力发挥作用的情况下,搬起的石头必然会落地。

相对于确定性现象,产生的结果不止一个,并且实现无法预知哪个结果会发生的现象称为随机现象。例如,抛骰子得到的点数、某一时段来银行办理业务的人数、某公司股票第二天的收盘价等。

概率论的主要研究对象是随机现象。为了方便研究,将随机现象可能产生的结果定义为一个变量,称为随机变量。随机变量一般用大写字母X、Y、Z表示。例如,掷一个骰子,其可能出现的点数可以用随机变量X表示。

结果

随机变量的可能取值称为结果,结果的某一具体取值一般用小写字母表示。随机变量的所有可能结果组成的集合称为样本空间,用大写希腊字母Ω表示。

随机事件

随机变量的部分结果组成的集合称为随机事件,简称为事件,一般用大写字母A,B,C表示。注意,事件本质是一个集合,可以是样本空间的任意子集,当这个集合中任意一个结果发生,就称该事件发生。例如,掷骰子中,随机变量为骰子掷出来的点数,其样本空间为{1,2,3,4,5,6}。事件“掷出偶数点”可以用事件A={2,4,6}表示,只要掷出2点,4点或6点任意结果发生时,就代表事件“掷出偶数点”发生了。

事件之间的关系

互斥事件

一组不可能同时发生的事件称为互斥事件。例如,掷骰子中,事件A“掷出偶数点”与事件B“掷出奇数点”为互斥事件,因为掷出的点数不可能既是奇数又是偶数。为方便理解,可以把互斥事件比喻为一对仇人,两者永不相见,一人出现时另一人绝不会出现。

遍历事件

一组包含随机变量所有可能结果的事件称为遍历事件。例如,掷骰子中,事件A“掷出偶数点”与事件B“掷出奇数点”同样也为遍历事件,因为掷出的点数要么是奇数要么是偶数,不可能有其他情形。

独立事件

如果一个事件的发生不会影响到另一个事件的发生,则称这两个时间独立;反之,如果一个事件的发生会影响到另一个事件发生,则称这两个事件不独立。

概率的定义与确定方法

概率的定义

概率的定义是建立在事件的基础上的,事件的概率必须满足以下两个性质:

  1. 任意事件E的概率必须在0到1之间:0≤P(E)≤1.
  2. 一组互斥且遍历事件的概率和为1: ∑ P ( E i ) = 1 \sum{P(E_i)=1} P(Ei)=1
概率的确定方法

实践中,确定某一事件概率的方法通常有两种:经验概率、先验概率与主观概率。其中,前两种又统称为客观概率。

  1. 经验概率:通过历史数据来估算事件发生的概率。例如,根据历史数据,2000只股票在过去10年中(样本容量为2000*10=2万个),有12000个样本点是分红的,那么按照经验概率的估算方法,股票S今年分红的概率就应当是12000/20000=60%。
  2. 先验概率:通过逻辑分析而不是历史数据或主观判断来估计事件发生概率。例如,抛硬币中,通常认为硬币正面朝上的概率为50%。这个概率实际上是通过逻辑分析得出的。如果按照经验概率法则估算,应该去做多次抛硬币实验,根据实验中硬币正面朝上的比例来估算事件概率。历史上,很多数学家都做过抛硬币的实验,比较著名的有蒲丰抛硬币4040次,2048次正面朝上;皮尔逊抛硬币24000次,12012次正面朝上。
  3. 主观概率:依据个人主观判断而不是历史数据来估计事件发生的概率。例如,经常可以在媒体上看到类似这样的报道:“专家估计人类在未来20年内登上火星的概率为30%。”此类事件,要么没有历史数据,要么数据量很小,事件概率只能通过个人主观判断。
赔率

在经济金融中,有些时候概率是以赔率的形式给出的。例如,已知时间E发生的概率为P(E),那么:

  1. 事件 E 发生的赔率 = P ( E ) 1 − P ( E ) 事件E发生的赔率=\frac {P(E)} {1-P(E)} 事件E发生的赔率=1P(E)P(E)
  2. 事件 E 不发生的赔率 = 1 − P ( E ) P ( E ) 事件E不发生的赔率=\frac {1-P(E)} {P(E)} 事件E不发生的赔率=P(E)1P(E)
条件概率

条件概率指在已知某事件B发生的情况下,事件A发生的概率,记为P(A|B)。条件概率与之前学的无条件概率P(A)是不同的。例如,事件A代表股票S明天上涨的概率,事件B代表美联储加息。无条件概率P(A)就是指在不知道任何信息的情况下,估计股票S上涨的概率。而P(A|B)是指已知美联储加息的情况下,估计股票S上涨的概率。P(A|B)应该低于没有任何信息下估算的P(A)。

独立事件可以利用条件概率来定义P(A|B)=P(A),即事件A的无条件概率与条件概率相等,就意味着事件A与事件B相互独立(事件B发生对事件A发生的概率没有任何影响)。

概率的计算

乘法法则与加法法则

学习概率论时,维恩图(也称文氏图)是极其有用的工具。在维恩图中,长方形方框代表整体样本空间Ω,即所有可能结果的集合;圆形代表某个具体的事件A,如果某个结果ω1落在圆形内,代表事件A发生了;反之,结果为ω2落在圆圈外,代表事件A没有发生。圆形A的面积可以近似看成事件A发生的概率。了解维恩图将有助于理解与记忆相关概率公式。

维恩图示意

联合概率与乘法法则

联合概率是指一组事件同时发生的概率。以两个事件为例,事件A与事件B同时发生的概率为联合概率,记为P(AB)。计算联合概率必须用到乘法法则:
P ( A B ) = P ( A ∣ B ) P ( B ) P(AB)=P(A|B)P(B) P(AB)=P(AB)P(B)
乘法法则在实际运用中常以下面的形式出现,用于计算条件概率:
P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\frac {P(AB)} {P(B)} P(AB)=P(B)P(AB)
对于独立事件来说,由于P(AB)=P(A),根据公式有P(AB)=P(A)P(B)。因此P(A|B)=P(A)与P(AB)=P(A)P(B)均可以用于定义独立事件。

加法法则

加法法则适用于求事件A或事件B发生的概率,记为P(A or B)或P(A+B)。只要事件A或者事件B其中一个发生,就代表A or B事件发生,其公式如下:
P ( A o r B ) = P ( A ) + P ( B ) − P ( A B ) P(A or B)=P(A)+P(B)-P(AB) P(AorB)=P(A)+P(B)P(AB)
可以通过维恩图来理解,P(A)+P(B)为圆形A与圆形B面积相加,但是由于两个圆形有重叠部分P(AB),相当于P(AB)的面积被加了两次,扣除后就表示A or B的概率,即落在圆形A或圆形B中的所有结果。
在这里插入图片描述

全概率公式与贝叶斯公式

全概率公式

全概率公式在实际中运用地非常广泛。通常,某一事件可能很复杂,直接去求该事件的概率会无从入手。通过全概率公式,可以把复杂的事件拆分为简单事件后再求解其概率。全概率公式如下:
P ( B ) = ∑ j = 1 N P ( A j ) P ( B ∣ A j ) P(B)=\displaystyle\sum_{j=1}^N{P(A_j)P(B|A_j)} P(B)=j=1NP(Aj)P(BAj)
其中,事件A1,A2,…,An互斥且遍历。

贝叶斯公式

由乘法法则以及全概率公式即可推导出著名的贝叶斯公式。贝叶斯公式由英国数学家同时也是神父的贝叶斯得出。贝叶斯起先只是想用贝叶斯公式证明上帝的存在。然而,在贝叶斯逝世后,贝叶斯公式出乎意料地得到了广泛运用,其思想对统计学发展产生了深远影响。这个著名公式如下:
P ( A ∣ B ) = P ( B ∣ A ) P ( B ) P ( A ) P(A|B)=\frac {P(B|A)} {P(B)}P(A) P(AB)=P(B)P(BA)P(A)
其中,事件A是研究问题中所关注的概率。如果得到了新的信息B,可以依据新的信息来更新对事件A概率的估计,即P(A|B)。我们讲P(A)称为先验概率,P(A|B)称为后验概率。公式中分母P(B)概率实际上是用全概率公式计算的。

随机变量的统计量

期望

定义

算术平均值通常用于衡量一个数据集的集中程度。然而对于随机变量来说,在某一时刻其取值并不确定,已知的仅是可能的结果及对应的概率,无法计算算术平均值。一个很自然的想法就是以概率为权重求加权平均。例如,假定一个彩票中奖概率是20%,如果中奖,奖金为2000元;不中奖,奖金为0.在不考虑成本的情况下,买彩票的期望收益应该是20%*2000+80%*0=400元,这就是期望的内在含义。具体地,随机变量的期望是以概率为权重,所有可能结果的加权平均,记为E(X):
E ( X ) = P ( x 1 ) x 1 + P ( x 2 ) x 2 + . . . + P ( x n ) x n E(X)=P(x_1)x_1+P(x_2)x_2+...+P(x_n)x_n E(X)=P(x1)x1+P(x2)x2+...+P(xn)xn
有了期望的定义后,还可以将全概率公式转换为期望的形式:
E ( X ) = E ( X ∣ S 1 ) P ( S 1 ) + E ( X ∣ S 2 ) P ( S 2 ) + . . . + E ( X ∣ S n ) P ( S n ) E(X)=E(X|S_1)P(S_1)+E(X|S_2)P(S_2)+...+E(X|S_n)P(S_n) E(X)=E(XS1)P(S1)+E(XS2)P(S2)+...+E(XSn)P(Sn)

期望的相关性质

性质一:对于任意常数c,有E(cX)=cE(X)。
性质一比较好理解,相当于对随机变量cX求期望时,每一个可能的取值都乘以了常数c,而对应的概率不变自然有E(cX)=cE(X)。

性质二:对于资产组合来说,资产组合收益率的期望等于组合中每个资产的收益率的加权平均,权重即为资产在组合中的占比:
E ( R p ) = E ( ω 1 R 1 + ω 2 R 2 + . . . + ω n R n ) = ω 1 E ( R 1 ) + ω 2 E ( R 2 ) + . . . + ω n E ( R n ) E(R_p)=E(\omega_1R_1+\omega_2R_2+...+\omega_nR_n)=\omega_1E(R_1)+\omega_2E(R_2)+...+\omega_nE(R_n) E(Rp)=E(ω1R1+ω2R2+...+ωnRn)=ω1E(R1)+ω2E(R2)+...+ωnE(Rn)
其中, ω 1 , ω 2 , . . . ω n \omega_1,\omega_2,...\omega_n ω1,ω2,...ωn是资产i的权重,满足 ∑ i = 1 n ω i = 1 \displaystyle\sum_{i=1}^n{\omega_i}=1 i=1nωi=1.
性质二也是比较显然的。例如,一个资产组合总价值100万元,40万元配置债券,60万元配置股票;债券年化收益率为5%,股票年化收益率为10%。那么该资产组合的年化收益率就为40/1005%+60/10010%=8%。

利用树形图求期望

利用树形图求解期望

随机变量的方差与标准差

与期望类似,由于考察对象是随机变量,方差实际上也是一种期望,即随机变量X偏离其均值程度的期望:
σ 2 ( X ) = E [ X − E ( X ) ] 2 = P ( x 1 ) [ x 1 − E ( x ) ] 2 + P ( x 2 ) [ x 2 − E ( x ) ] 2 + . . . + P ( x n ) [ x n − E ( x ) ] 2 \sigma^2(X)=E[X-E(X)]^2=P(x_1)[x_1-E(x)]^2+P(x_2)[x_2-E(x)]^2+...+P(x_n)[x_n-E(x)]^2 σ2(X)=E[XE(X)]2=P(x1)[x1E(x)]2+P(x2)[x2E(x)]2+...+P(xn)[xnE(x)]2
随机变量的标准差就是方差开根号。

协方差与相关系数

协方差

在现代资产配置理论中,了解不同资产之间收益率的联动关系非常重要,协方差与相关系数就是衡量这种关系的度量。

协方差就是用来衡量上述不同资产之间的收益率联动性的,其公式如下:
C o v ( R i , R j ) = ∑ i , j = 1 n P ( R i , R j ) [ R i − E ( R i ) ] [ R j − E ( R j ) ] Cov(R_i,R_j)=\displaystyle\sum_{i,j=1}^nP(R_i,R_j)[R_i-E(R_i)][R_j-E(R_j)] Cov(Ri,Rj)=i,j=1nP(Ri,Rj)[RiE(Ri)][RjE(Rj)]
公式就是每个资产的收益率减去其均值后乘以概率为权重加权平均,如果两个资产之间收益率是正相关的,那么当资产i收益率大于其均值时,资产j的收益率也倾向于大于其均值,协方差为正数。反之,如果资产之间收益率是负相关的,协方差为负数。当i=j时协方差公式实际上就是资产i的方差。换言之,方差是协方差的特殊情形。

相关系数

相关系数改进了协方差的缺点,将协方差除以资产i与资产j的标准差,提出了量纲的影响,可以直接用于比较两对资产之间联动性的高低。相关系数的具体公式如下:
ρ i , j = C o v ( R i , R j ) σ i σ j , γ i , j = C o v ( R i , R j ) s i s j \rho_{i,j}=\frac {Cov(R_i,R_j)} {\sigma_i\sigma_j},\gamma_{i,j}=\frac {Cov(R_i,R_j)} {s_is_j} ρi,j=σiσjCov(Ri,Rj),γi,j=sisjCov(Ri,Rj)
相关系数的几个性质:

  1. 由于除以了各自资产的标准差,所以相关系数的取值范围在-1到+1之间,当相关系数为1时,称为完全正相关,表示资产i与资产j之间存在斜率为正的线性关系1;当相关系数为-1时,称为完全负相关,表示资产i与资产j之间存在斜率为负的线性关系。值得注意的是,相关系数不是斜率,只要相关系数绝对值为1,那么两个变量之间就存在线性关系,而斜率可以是负无穷到正无穷之间的任意数。
  2. 散点图:相关系数绝对值越高,意味着资产i与资产j的线性关系越强,但并没有完全的线性关系。
    散点图相关系数的不同情形
  3. 如果变量X与Y的相关系数为0时,意味着X与Y之间不存在线性关系。这里需要特别注意,相关系数为0时,实际上有两种情形:第一,X与Y之间不存在任何关系;第二,X与Y之间存在非线性关系。例如Y=X2,此时X与Y的相关系数仍为0.换言之,相关系数为0只能说明变量之间不存在线性关系,但变量间是否有非线性关系是不确定的。

排列组合的相关问题

计数的方法有两种,即排列与组合,两者均涉及“从n个元素中任取r个元素”取法的计算。不同之处在于排列区分取出元素的次序,组合不区分取出元素的次序。

组合

乘法计数法则

乘法法则的含义如下:如果一项任务需要通过k个步骤完成,第一个步骤有n1种方法,第二个步骤有n2种方法…,第k个步骤有nk种方法,那么完成这项工作总共有n1n2…*nk种方法。

例如,基金经理想分配手下3个研究员去研究3种不同的行业,问有几种分配方法?可以运用乘法法则来计算,分配任务可以看成3个步骤,每个步骤对应一个研究员去选择行业。对于第一个研究员来说,可以选择的行业有3个;在第一个研究员选定行业后,第二个研究员只剩下两个行业可以选择;而第三个研究员只剩下一个行业可以选择。因此,分配方法总共有321=6种。

通常可以将n*(n-1)*(n-2)…1记为n!,即n的阶乘。

多项式公式

多项式公式也称为标签问题,是指将n个物品分为k类(即k个标签),第一类有n1个物品,第二类有n2个物品,第k类有nk个物品,n1+n2+…+nk=n,分法共有多少种?公式为:
N u m b e r o f w a y s = n ! n 1 ! n 2 ! . . . n k ! Number of ways=\frac {n!} {n_1!n_2!...n_k!} Numberofways=n1!n2!...nk!n!

组合公式

如前所述,组合公式实际就是多项式公式的特例,将n个物品归为两类,其中r个物品数据某个类别,剩下n-r个物品归为其他。于是有公式:
C n r = n ! ( n − r ) ! r ! C_n^r=\frac {n!} {(n-r)!r!} Cnr=(nr)!r!n!
组合公式也可以理解为n个物品中不分排序取出r个物品的取法一共多少种。例如10只股票中选出5只股票给予买入评级,那么取法一共10!/(5!*5!)=252种。

排列

排列与组合一样,是指从n个物品中取出r个物品,不同之处在于这r个物品要区分排序。例如,同样从10只股票中选取5只股票给予买入评级。不同之处在于,买入评级内部仍有推荐程度的区别,先取出来的股票推荐级别最高,问有多少种取法?此题中取出股票的排序是需要考虑的。因此抽取第一只股票有10种取法,第二只股票则是在剩下的9只股票中选择,以此类推,总共应该有109876种取法,即为10!/5!。一般的,排列公式应为:
P n r = n ! ( n − r ! ) P_n^r=\frac {n!} {(n-r!)} Pnr=(nr!)n!


  1. 如果X与Y之间存在线性关系,有Y=aX+b,a为斜率。 ↩︎

  • 51
    点赞
  • 39
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值