目录
名词
-
随机变量:随机变量是一个数值型变量,其值由随机事件决定。随机变量可以分为两类:离散随机变量和连续随机变量。离散随机变量的取值是有限或可数的,例如抛硬币的结果(正面或反面);而连续随机变量的取值是在某个区间内的任意实数,例如身高、体重等。
-
概率质量函数(Probability Mass Function,PMF):对于离散随机变量,概率质量函数描述了随机变量取某个特定值的概率。通常用P(X = x)表示随机变量X取值为x的概率。
-
概率密度函数(Probability Density Function,PDF):对于连续随机变量,概率密度函数描述了随机变量在某个区间内取值的概率密度。通常用f(x)表示随机变量X在x处的概率密度。
-
累积分布函数(Cumulative Distribution Function,CDF):对于随机变量X,累积分布函数F(x)表示随机变量X小于等于x的概率。对于离散随机变量,F(x)等于其概率质量函数在x及之前所有可能取值的概率之和;对于连续随机变量,F(x)等于其概率密度函数在负无穷到x之间的积分。
-
期望(Expectation):对于随机变量X,其期望E(X)表示随机变量的平均值,是所有可能取值的加权平均。对于离散随机变量,期望计算方式为E(X) = Σx * P(X = x),其中Σ表示求和;对于连续随机变量,期望计算方式为E(X) = ∫x * f(x) dx,其中∫表示积分。
-
方差(Variance):方差是度量随机变量离其期望的距离的平方的平均值。对于随机变量X,其方差Var(X)计算方式为Var(X) = E[(X - E(X))^2]。
似然和概率
-
概率(Probability):
- 概率是用于描述随机事件发生的可能性的数值。在已知随机变量和概率分布的情况下,概率可以告诉我们某个事件发生的概率大小。
- 通常用P(A)表示事件A发生的概率。概率的取值范围是0到1之间,其中0表示不可能事件,1表示必然事件。
-
似然(Likelihood):
- 似然是在给定观察数据的情况下,关于模型参数的概率分布。在统计推断中,我们希望找到最符合观察数据的模型参数,这就涉及到对似然函数的优化。
- 通常用L(θ|x)表示在给定观察数据x下,模型参数θ的似然。似然函数的取值范围没有限制,可以是任意实数。
区别:
- 概率描述的是已知模型参数时的事件发生概率,而似然描述的是已知事件发生时的模型参数可能性。
- 在频率学派的观点下,似然函数用于寻找在给定观察数据下的最优模型参数,使得数据出现的可能性最大化。而在贝叶斯学派的观点下,似然函数作为先验分布的一部分,用于更新后验分布。
常见的概率分布
-
伯努利分布(Bernoulli Distribution):描述单次试验的结果,如抛硬币,只有两种可能的离散分布。
- 公式:P(X = x) = p^x * (1 - p)^(1-x),其中x为0或1,p为成功的概率。
- 例子:抛一枚公平硬币,X表示出现正面的结果,那么X服从伯努利分布,其中p为0.5(硬币正面的概率)。
-
二项分布(Binomial Distribution):描述重复进行相同试验,每次试验有两种可能的离散分布。
- 公式:P(X = k) = C(n, k) * p^k * (1-p)^(n-k),其中X表示成功次数,n为试验次数,k为成功次数,p为单次试验的成功概率,C(n, k)为组合数。
- 例子:掷一枚公平硬币10次,X表示出现正面的次数,那么X服从二项分布,其中n为10,p为0.5(硬币正面的概率)。
-
正态分布(Normal Distribution):也称为高斯分布,是连续变量的一种常见分布,被广泛用于自然和社会科学中的许多现象的建模。
- 公式:f(x) = (1 / (σ * √(2π))) * exp(-(x - μ)^2 / (2 * σ^2)),其中μ为均值,σ为标准差。
- 例子:成年男性的身高通常符合正态分布,假设某城市成年男性的身高均值为175厘米,标准差为5厘米,则他们身高的分布可以用正态分布来近似表示。
-
泊松分布(Poisson Distribution):描述单位时间或单位空间中事件发生的次数的概率分布,适用于稀有事件的计数模型。
- 公式:P(X = k) = (λ^k * exp(-λ)) / k!,其中X表示事件发生的次数,λ为单位时间或单位空间内事件发生的平均率。
- 例子:一个邮局平均每小时接收20封邮件,X表示每小时接收到k封邮件的概率,那么X服从泊松分布,其中λ为20。
-
指数分布(Exponential Distribution):连续随机变量的一种,适用于描述事件发生之间的间隔时间。
- 公式:f(x) = λ * exp(-λ * x),其中x为正实数,λ为率参数。
- 例子:在一个服装店购物的顾客之间的时间间隔,假设服从指数分布,λ表示平均每个顾客购物离开的速率。
6.Beta分布
一个事件出现的概率的概率密度分布。
Beta分布与强化学习的关系:
在强化学习中,Beta分布通常用于参数化策略的概率分布。策略是指在每个状态下选择动作的概率分布。而策略梯度方法(Policy Gradient Methods)是一类用于训练策略的强化学习算法,它们试图最大化累积奖励的预期值。
在策略梯度方法中,使用Beta分布参数化策略是一种常见的做法,特别适用于解决连续动作空间的问题。通过调整Beta分布的形状参数α和β,可以控制策略在每个动作上的概率分布。这样,强化学习智能体就可以根据当前状态来选择合适的动作,并根据策略的概率分布进行探索和利用,以逐步改进策略,实现更好的性能。
认识马尔科夫
-
马尔科夫链(Markov Chain): 马尔科夫链是一种随机过程,它具有“无记忆性”,即未来状态的概率只依赖于当前状态,与过去状态无关。形式化地说,对于马尔科夫链中的任意状态,给定当前状态,它的未来状态只与当前状态有关,而与过去状态无关。马尔科夫链通常由一个状态空间和转移概率组成。
-
状态空间(State Space): 马尔科夫链的状态空间是指所有可能的状态集合。对于离散状态马尔科夫链,状态空间是一个有限或可数的集合;对于连续状态马尔科夫链,状态空间是一个实数区间。
-
转移概率(Transition Probability): 转移概率是指从一个状态转移到另一个状态的概率。在马尔科夫链中,对于任意状态Si和Sj,转移概率Pij表示在当前状态为Si的情况下,下一步转移到状态Sj的概率。
-
初始分布(Initial Distribution): 初始分布是指马尔科夫链在初始时刻各个状态的概率分布。对于离散状态马尔科夫链,初始分布是一个概率向量,表示在初始时刻每个状态出现的概率。
-
平稳分布(Stationary Distribution): 在一些马尔科夫链中,随着时间的推移,状态的概率分布可能会收敛到一个稳定的分布。这个稳定的分布称为平稳分布。如果一个马尔科夫链存在平稳分布,并且在一定条件下收敛到该分布,那么它被称为“具有平稳分布”。
-
吸收状态(Absorbing State): 吸收状态是指一个状态在马尔科夫链中无法再转移到其他状态的状态。如果一个状态是吸收状态,那么它在之后的时间步中将永远保持在该状态。
马尔科夫在AI的应用
-
自然语言处理(Natural Language Processing,NLP): 在自然语言处理中,马尔科夫链被用于语言模型,特别是一阶(或二阶)马尔科夫链模型,称为马尔科夫文本模型。这些模型可以捕捉文本序列中的词汇和语法结构,用于生成和理解自然语言文本,如文本生成、语言模型、机器翻译等。
-
语音识别: 马尔科夫链被用于语音识别中的隐马尔科夫模型(Hidden Markov Model,HMM)。HMM是一种用于建模声音信号的概率模型,它在语音识别系统中用于将声学特征序列与相应的文字转录关联起来。
-
图像处理: 马尔科夫随机场(Markov Random Fields,MRF)是图像处理中常用的概率模型。它在图像分割、目标识别、图像去噪等任务中有广泛应用。
-
强化学习: 马尔科夫决策过程(Markov Decision Process,MDP)是强化学习中的一个核心概念。MDP用于建模智能体在不同状态下采取行动,并根据状态转移和奖励函数来学习最优策略。
马尔科夫决策过程
MDP是一种数学框架,用于描述智能体在不同状态下采取行动并根据这些行动来学习最优策略,以达到目标。
MDP是基于马尔科夫链的扩展,其中包含了一组状态、一组可供智能体选择的动作、状态转移概率、即时奖励和一个折扣因子。在MDP中,智能体根据当前的状态采取行动,然后根据状态转移概率转移到下一个状态,并获得一个即时奖励。智能体的目标是学习一个策略,以在每个状态下选择最优的动作,从而最大化累积奖励。
MDP通常由以下要素组成:
-
状态(States):表示智能体可能处于的各种情况。状态可以是离散的或连续的,取决于具体的问题。
-
动作(Actions):表示智能体在每个状态下可执行的操作。动作可以是离散的或连续的,取决于具体的问题。
-
状态转移概率(State Transition Probabilities):表示在执行某个动作后,智能体从一个状态转移到另一个状态的概率。
-
奖励函数(Reward Function):表示在每个状态执行某个动作后,智能体所获得的即时奖励。
-
策略(Policy):表示智能体在每个状态下选择动作的决策规则。策略可以是确定性的(确定性策略)或概率性的(随机策略)。
-
折扣因子(Discount Factor):用于权衡当前奖励和未来奖励的重要性。折扣因子在[0, 1]范围内,决定了对未来奖励的折扣程度。
MDP VS Markov Chain
-
目的不同:
- 马尔科夫链的目的是描述状态之间的转移概率,其本身并不涉及决策过程和智能体行为。
- 马尔科夫决策过程的目的是在给定环境的状态转移概率和奖励函数的情况下,找到一个策略,使智能体在每个状态下选择最优的动作,从而最大化累积奖励。
-
要素不同:
- 马尔科夫链主要由状态空间和状态转移概率组成。
- 马尔科夫决策过程包含了状态空间、动作空间、状态转移概率、即时奖励和折扣因子,用于描述智能体与环境的交互和决策过程。
马尔科夫假设
Markov Assumption是概率论和统计学中的一个假设,它是马尔科夫链和马尔科夫过程的基础。
指在马尔科夫链中,未来的状态只依赖于当前状态,而与过去的状态无关。具体来说,一个满足马尔科夫假设的随机过程,当给定当前状态的情况下,它的未来状态的条件概率分布与过去状态无关。这个假设表明了一种“无记忆性”,即在某一时刻的状态转移概率只取决于当前状态,而不受过去状态的影响。
数学上,马尔科夫假设可以用以下条件表示:P(X_{t+1} | X_t, X_{t-1}, ..., X_1) = P(X_{t+1} | X_t)
隐马尔科夫模型
Hidden Markov Model,HMM是一种概率图模型,有两种类型的状态:
-
隐含状态(Hidden State): 隐含状态是指在观测数据下不可见的状态,我们无法直接观测到隐含状态,但它们影响了观测数据的生成过程。隐含状态通常表示问题的内在状态或隐藏特征。eg: NLP中tag词性,分词
-
观测状态(Observable State): 观测状态是指在给定隐含状态下可见的状态,我们可以直接观测到观测状态。观测状态通常表示我们能够观察到的数据。
HMM的主要假设:
-
状态转移假设:隐含状态构成一个马尔科夫链,即当前的隐含状态只与前一个隐含状态有关。
-
观测独立性假设:在给定隐含状态的情况下,观测状态之间相互独立。
HMM包含三组参数:
-
初始状态概率(Initial State Probability): 它表示隐含状态序列的第一个状态是某个特定状态的概率。
-
状态转移概率(State Transition Probability): 它表示在给定当前隐含状态的情况下,转移到下一个隐含状态的概率。
-
观测概率(Observation Probability): 它表示在给定隐含状态的情况下,生成某个观测状态的概率。
HMM使用Baum-Welch算法(一种期望最大化算法),也称为期望最大化(Expectation-Maximization,EM)算法,是一种迭代算法。它用于估计HMM的参数,包括初始状态概率、状态转移概率和观测概率,使得HMM能够更好地对给定的观测序列进行建模和预测。
Baum-Welch算法属于无监督学习算法,使用未标记的观测序列。通过迭代地进行期望步骤(E步骤)和最大化步骤(M步骤),来逐步优化HMM的参数。
Baum-Welch算法的主要步骤如下:
-
初始化: 首先,随机初始化HMM的参数,包括初始状态概率、状态转移概率和观测概率。
-
Expectation 步骤(E步骤): 在E步骤中,根据当前的参数,使用前向-后向算法(Forward-Backward Algorithm)来计算观测序列中每个时刻处于每个隐含状态的后验概率。这些后验概率表示在给定观测序列下,每个隐含状态的可能性。
-
Maximization 步骤(M步骤): 在M步骤中,使用期望得分来重新估计HMM的参数。通过使用E步骤中计算的后验概率,更新HMM的初始状态概率、状态转移概率和观测概率,使得这些参数能够更好地解释观测序列。
-
迭代: 重复执行E步骤和M步骤,直到算法收敛或达到预定的迭代次数。
条件随机场
Conditional Random Field是一种概率图模型,用于对序列数据进行建模和预测。CRF主要用于解决序列标注(Sequence Labeling)问题,其中给定输入序列,需要为每个输入元素赋予相应的标签。
与隐马尔科夫模型(Hidden Markov Model,HMM)类似,CRF也是一种序列建模方法。但是,CRF相比于HMM在建模能力上更强,因为它不对序列的隐含状态做任何假设,而是直接对标签序列的联合概率建模,考虑了输入序列与输出标签之间的条件依赖关系。
假设我们有一个句子:"Y lives in New York.",标注其中人名、地名等。
Input:"Y", "lives", "in", "New", "York",
Output:单词的命名实体标签,例如:"B-PER"表示人名的开头,"I-PER"表示人名的后续单词,"B-LOC"表示地名的开头,"I-LOC"表示地名的后续单词等。
CRF建模:
-
特征提取: 首先,对于每个单词,我们可以提取一些特征,例如当前单词的内容、前一个单词的内容、后一个单词的内容等。
-
定义条件随机场: 在CRF中,我们定义输入序列和输出标签序列的联合概率分布。我们建立一个条件随机场,其中输入是特征序列,输出是标签序列。假设我们有一组特征函数和权重,它们可以表示输入序列和输出标签之间的条件概率。
-
计算概率: 给定输入序列和输出标签序列,我们可以计算联合概率。根据CRF的定义,条件概率是由特征函数和权重来决定的。
-
训练模型: 我们使用已标注的训练数据来学习CRF的特征函数的权重。通常使用最大似然估计或其他优化算法来最大化联合概率。
-
预测: 训练完成后,我们可以使用CRF模型来对新的未标注句子进行预测,即给定输入序列,预测输出标签序列,从而实现命名实体识别的任务。
CRF VS HMM
-
模型假设:
- HMM:HMM是一种有向图模型,它假设序列的生成过程由隐藏的隐含状态和可观察的观测状态组成,并且具有马尔科夫性质,即未来状态的概率只依赖于当前状态。HMM对序列的建模假设比较简单,它假设观测状态只与当前的隐含状态有关。
- CRF:CRF是一种无向图模型,它对标签序列的联合概率进行建模,不对序列的隐含状态做任何假设,直接对输出标签进行建模。CRF考虑了输入序列与输出标签之间的条件依赖关系,因此可以处理更复杂的序列关系。
-
条件概率建模:
- HMM:HMM主要用于建模隐含状态与观测状态之间的条件概率,即给定观测状态下的隐含状态概率。HMM用于解决诸如序列分类、预测等任务。
- CRF:CRF主要用于建模输入序列与输出标签之间的条件概率,即给定输入序列下的输出标签概率。CRF在序列标注任务中非常流行,例如命名实体识别、词性标注等。
-
建模能力:
- HMM:HMM的建模能力相对较弱,它假设观测状态之间相互独立,对于复杂的序列关系和长期依赖关系建模效果较差。
- CRF:CRF的建模能力较强,它可以直接建模标签序列的联合概率,允许对序列的全局信息进行建模,适用于复杂的序列数据和长期依赖关系。
-
训练和推断:
- HMM:HMM的训练通常使用EM算法或Viterbi算法,用于估计模型的参数。Viterbi算法用于推断给定观测序列下最可能的隐含状态序列。
- CRF:CRF的训练通常使用梯度下降或其他优化算法,用于最大化条件似然函数,从而估计模型的参数。解码时,CRF通常使用维特比算法或者前向-后向算法来推断最可能的输出标签序列。
贝叶斯公式
Bayes' Theorem是概率论中非常重要的公式,用于计算在给定观察数据的情况下,更新一个假设的概率。它是基于条件概率的一种推导方法,由英国数学家托马斯·贝叶斯(Thomas Bayes)提出。
贝叶斯公式可以表述为:P(A|B) = (P(B|A) * P(A)) / P(B)
其中,P(A|B)表示在观察到B发生的条件下,A发生的概率;
P(B|A)表示在A发生的条件下,B发生的概率;
P(A)和P(B)分别表示A和B各自独立发生的概率。
假设有一个罐子里装有红色和蓝色两种颜色的球,但我们不知道红球和蓝球的比例。假设我们有两个假设:
假设H1: 罐子中红球的比例较高,即大部分球是红色的。
假设H2: 罐子中蓝球的比例较高,即大部分球是蓝色的。
现在我们从罐子中随机取出一个球,结果是红色球。我们想要知道这个结果对两个假设的支持程度,即在这个观察结果下,H1和H2各自的概率。
已知条件:
- P(H1):假设H1为真的先验概率(初始概率),即我们在没有观察到球的颜色之前认为H1为真的概率。
- P(H2):假设H2为真的先验概率,即我们在没有观察到球的颜色之前认为H2为真的概率。
- P(R|H1):在H1为真的条件下,取出红球的概率。
- P(R|H2):在H2为真的条件下,取出红球的概率。
假设我们知道先验概率 P(H1) = 0.6,P(H2) = 0.4,并且条件概率 P(R|H1) = 0.8,P(R|H2) = 0.3(即在H1为真的条件下取出红球的概率为0.8,在H2为真的条件下取出红球的概率为0.3)。
我们可以使用贝叶斯公式来计算在观察到红球的情况下,H1和H2各自的后验概率:
P(H1|R) = (P(R|H1) * P(H1)) / P(R) P(H2|R) = (P(R|H2) * P(H2)) / P(R)
其中,P(R) 是取出红球的总概率,可以通过全概率公式计算:
P(R) = P(R|H1) * P(H1) + P(R|H2) * P(H2)
根据已知条件,我们可以计算得到 P(R) = (0.8 * 0.6) + (0.3 * 0.4) = 0.54。
现在我们可以计算后验概率:
P(H1|R) = (0.8 * 0.6) / 0.54 ≈ 0.8889 P(H2|R) = (0.3 * 0.4) / 0.54 ≈ 0.2222
因此,在观察到红球的情况下,H1的后验概率约为0.8889,H2的后验概率约为0.2222。这意味着在这次观察之后,我们更有信心地认为罐子中红球的比例较高(支持H1),而蓝球的比例较低(不支持H2)。贝叶斯公式使我们能够根据新的观察数据更新我们的先验信念,从而得到更准确的后验概率。
概率图
概率图(Probabilistic Graphical Model,PGM)是一种用于表示随机变量之间条件依赖关系的图模型。它是结合了概率论和图论的强大工具,用于处理不确定性和复杂的概率推理问题。
概率图由一组节点(Nodes)和连接这些节点的边(Edges)组成,节点表示随机变量,而边表示两个随机变量之间的条件概率。
根据图的结构和特性,概率图可以分为两种主要类型:
-
贝叶斯网络(Bayesian Network,BN): 贝叶斯网络是一种有向无环图(Directed Acyclic Graph,DAG),其中节点表示随机变量,有向边表示条件概率。
-
马尔科夫网络(Markov Network,MN): 马尔科夫网络是一种无向图(Undirected Graph),其中节点表示随机变量,边表示变量之间的相关性。在马尔科夫网络中,没有明确的因果关系,边表示联合概率分布中的条件独立性。