CDA数据分析师 出品
摘要
本文作为学习概率论的前导知识,主要是为了帮助大家了解以下知识点:
- 什么是随机事件和随机变量?
- 什么是频率和概率?
- 事件之间有哪些基本关系?
- 事件之间有哪些基本运算?
随机现象
概率论是研究随机现象的数量规律的数学分支,那么什么是随机现象呢?
首先,我们需要知道的是在自然界和人类社会中,存在着两种现象,一种是确定性现象,在一定条件下只有一种结果。比如,每天早晨太阳都是从东方升起。第二种是随机现象,在一定条件下可能由多种结果。比如,抛一枚硬币可能出现正反两面。
因此,随机现象满足两个特点:
- 结果不止一个;
- 会出现哪一个结果,人们事先并不知道。
随机现象的存在,使得我们生活中充满了不确定性的问题,因此,概率论和统计学就是帮我们解决不确定性问题的数学工具。
在上面中,我们了解到了随机现象可能出现的结果不止一个,这些结果我们就称之为随机事件,因此,可以进一步理解概率论研究的问题:概率论是用数学的方法估算随机现象中各随机事件发生的概率。
那么什么是概率呢?我们用什么来估算概率呢?下面我们来介绍一些频率的稳定性。
频率的稳定性
事物的偶然性必然受其背后的必然性规律所支配,因此,随机现象产生的结果也必定有着某种客观规律。而对于某些可以重复试验的随机现象,我们就可以利用不断的重复试验来观察其中的规律,比如概率论中的经典问题:抛一枚硬币,出现正面的概率是多少。为了估算正面出现的概率,我们可以通过在一定条件下重复试验,统计正面和反面出现的次数,计算出现正面出现的频率(正面出现的频率 = 正面出现的次数/总次数),然后用这个频率去估计概率。
因此,通过以上描述,我们可以总结出以下几点:
- 大量试验可以得到随机现象的随机事件发生的频率;
- 随机现象在大量重复试验后会呈现出明显的规律性,这个规律性就是频率的稳定性,即频率稳定于概率。
- 频率是可以通过重复试验计算出来的,而概率是客观存在的,是一个理论值,只能通过频率估计出来。
( **作者注:**这种用频率估计概率的估计思维,将贯穿概率论与统计学的整个学习过程,是整个学科的思想精髓,希望读者在之后的学习中慢慢体会它的妙处。)
随机变量
数学是对客观事物的抽象认知,概率论也不例外,因此,为了研究随机现象的规律,我们得将问题抽象成数学符号来进行研究。
通常,我们用大写字母 A A A、 B B B、 C C C…来表示随机事件。
在上文中,我们了解到了随机现象的结果(即随机事件)可能有很多种,因此,用来表示随机现象结果的变量我们就称之为随机变量,常用大写字母 X X X、 Y Y Y、 Z Z Z 表示。
下面,我们举一个例子,来学会如何将现实中的问题抽象成数学的表达方式。比如,我们要研究抛一枚骰子数字1出现的概率。
那么,在上面这个问题中,随机现象是抛一枚骰子;随机事件是抛一枚骰子出现数字1。用数学进行抽象表达就是:
设随机事件(可简称事件) A A A = 抛一枚骰子出现数字1,随机变量 X X X 为抛一枚骰子得到的数字,研究事件A发生的概率,即 X = 1 X = 1 X=1的概率。
易知,随机变量 X X X 的取值只有6种,分别是: 1 , 2 , 3 , 4 , 5 , 6 1,2,3,4,5,6 1,2,3,4,5,6。 X X X 的所有取值就构成了样本空间,我们用集合来表示就是:样本空间 Ω \Omega Ω = { $1, 2, 3, 4,5, 6 $ }。样本空间中的基本元素就叫做样本点,如该样本空间中就有6个样本点。
最后,留一个思考题给大家,如果想要研究:将一枚骰子抛两次,两次都大于3的概率。
在上述问题中,随机现象、随机事件、随机变量、样本空间、样本点分别是什么,如何将他们抽象成数学的表达方式?
事件间的关系和运算
在一个样本空间中显然可以定义不止一个事件,概率论的重要研究课题之一是希望从简单事件的概率推算出复杂事件的概率。
事件间的关系,我们用以下概率论语言来表示:
- 包含关系:事件 A A A包含事件 B B B = > B ⊂ A => B\subset A =>B⊂A
- 相等关系:事件 A A A与事件 B B B等价 = > B ⊂ A => B\subset A =>B⊂A 且 A ⊂ B A\subset B A⊂B
- 互补相容:事件 A A A与 B B B不可能同时发生 $=> AB = \emptyset $
事件间的运算,我们用以下概率论语言来表示:
- 事件 A A A与 B B B的并:事件 A 、 B A、B A、B至少发生一个 = > A ⋃ B => A\bigcup B =>A⋃B
- 事件 A A A与 B B B的交:事件 A A A、 B B B同时发生 = > A ⋂ B => A\bigcap B =>A⋂B 或 A B AB AB
- 事件 A A A与 B B B的差:事件 A A A发生,但 B B B不发生 = > A − B => A-B =>A−B
- A的对立事件(逆事件): A A A不发生 = > A ‾ => \overline{A} =>A
学会用概率论的语言表示事件是我们学习概率计算的第一步,若 A , B , C A,B,C A,B,C 是某个随机现象的三个事件,大家可以尝试用概率论的语言表示以下事件:
- A A A 与 B B B 发生, C C C 不发生
- A , B , C A,B,C A,B,C 中至少有一个发生
- A , B , C A,B,C A,B,C 中至少有两个发生
- A , B , C A,B,C A,B,C 中恰好有两个发生
- A , B , C A,B,C A,B,C 同时发生
- A , B , C A,B,C A,B,C 都不发生
- A , B , C A,B,C A,B,C 不全发生