贝叶斯推理(Bayesian inference)

Reference: Wikipedia:Bayesian_inference


Bayesian inference is a method of statistical inference in which Bayes’ theorem is used to update the probability for a hypothesis as more evidence or information becomes available. Bayesian inference is an important technique in statistics, and especially in mathematical statistics. Bayesian updating is particularly important in the dynamic analysis of a sequence of data. Bayesian inference has found application in a wide range of activities, including science, engineering, philosophy, medicine, sport, and law. In the philosophy of decision theory, Bayesian inference is closely related to subjective probability, often called “Bayesian probability”.

贝叶斯推理是一种统计推理方法,利用贝叶斯定理更新假设的概率,来获得更多的证据与信息。贝叶斯推理是统计学尤其是数理统计中的一项重要技术。贝叶斯更新在对于序列化数据的动态分析中非常重要。贝叶斯推断被广泛应用于科学研究,工程等领域。在决策理论哲学中,贝叶斯推理与主观概率密切相关,经常被称为贝叶斯概率。

贝叶斯规则简介(Introduction to Bayes' rule)

形式化解释(Formal explanation)

Bayesian inference derives the posterior probability as a consequence of two antecedents: a prior probability and a “likelihood function” derived from a statistical model for the observed data. Bayesian inference computes the posterior probability according to Bayes’ theorem.

贝叶斯推理根据两个前因式的结果来得到后验概率:一个先验概率;一个由观测数据的统计模型得出的似然函数。贝叶斯推理根据贝叶斯公式来计算后验概率。

贝叶斯公式:

P ( H ∣ E ) = P ( E ∣ H ) ⋅ P ( H ) P ( E ) P(H|E) = \frac{{P(E|H) \cdot P(H)}}{{P(E)}} P(HE)=P(E)P(EH)P(H)

上述公式中:

  • H H H代表其概率可能受到数据(下称证据evidence)影响的任何假设。通常这些假设是相互竞争的,而我们的任务就是决定哪一个是最有可能的。
  • P ( H ) P(H) P(H),先验概率(prior probability),是在数据 E E E(即当前得到的证据)被观测到前,对假设 H H H的概率估计。
  • E E E,即证据(evidence),指那些未被用于计算先验概率的新数据。
  • P ( H ∣ E ) P(H|E) P(HE)后验概率posterior probability),是指 H H H给予 E E E以后的概率,即在观测到证据 E E E以后,更新的概率。后验概率就是我们想要得到的:在当前观测到的证据下,某个假设发生的概率有多大。
  • P ( E ∣ H ) P(E|H) P(EH), 是在假设 H H H的前提下观测到证据 E E E的概率,被称为似然函数(likelihood)。作为固定 H H H E E E的函数,它体现了当前证据与给定假设的相容性。似然函数是证据 E E E的函数,而后验概率是假设 H H H的函数。
  • P ( E ) P(E) P(E),被称作边际似然函数或者模型证据。该因子对所有被考虑到的可能的假设都相同(可以明显的看出,符号表达式中并没有 H H H),所以该因子不会影响各个假设间的相对概率。

对于不同的 H H H,只有 P ( H ) P(H) P(H) P ( E ∣ H ) P(E|H) P(EH)这两项在分子上的因子会影响后验概率 P ( H ∣ E ) P(H|E) P(HE)的值。也就是说,后验概率与其先验概率(固有的可能性)和新获得的似然函数(与新获得的证据的相容性)成正比。

贝叶斯规则也可以被写成如下形式:

P ( E ∣ H ) P ( H ) P ( E ) = P ( E ∣ H ) P ( H ) P ( E ∣ H ) P ( H ) + P ( E ∣ ¬ H ) P ( ¬ H ) = 1 1 + ( 1 P ( H ) − 1 ) P ( E ∣ ¬ H ) P ( E ∣ H ) \frac{{P(E|H)P(H)}}{{P(E)}} = \frac{{P(E|H)P(H)}}{{P(E|H)P(H) + P(E|\neg H)P(\neg H)}} = \frac{1}{{1 + (\frac{1}{{P(H)}} - 1)\frac{{P(E|\neg H)}}{{P(E|H)}}}} P(E)P(EH)P(H)=P(EH)P(H)+P(E¬H)P(¬H)P(EH)P(H)=1+(P(H)11)P(EH)P(E¬H)1

这是由于:

P ( E ) = P ( E ∣ H ) P ( H ) + P ( E ∣ ¬ H ) P ( ¬ H ) P(E) = {P(E|H)P(H) + P(E|\neg H)P(\neg H)} P(E)=P(EH)P(H)+P(E¬H)P(¬H)

P ( H ) + P ( ¬ H ) = 1 P(H)+P(\neg H)=1 P(H)+P(¬H)=1

贝叶斯推理的形式化描述(Formal description of Bayesian inference)

定义 Definitions

  • x x x: 一个数据点,事实上可能是一个值向量vector
  • θ \theta θ,数据点所对应的分布的参数,即 x ∼ p ( x ∣ θ ) x \sim p(x|\theta) xp(xθ)。事实上, θ \theta θ可能是许多参数组成的向量。
  • α \alpha α,参数分布的超参数,即 θ ∼ p ( θ ∣ α ) \theta \sim p(\theta | \alpha) θp(θα)。可能是由很多超参数构成的一个向量。
  • X X X代表采样,一个由 n n n个观测的数据点构成的集合。即 x 1 , . . . , x n x_1,...,x_n x1,...,xn
  • x ~ {\tilde x} x~,一个新的数据点,其分布需要被预测。

贝叶斯推理 Bayesian inference

  • 先验分布 prior distribution,是指参数在没有任何新数据被观测到的情况下的概率分布,即 p ( θ ∣ α ) p(\theta|\alpha) p(θα)。先验分布可能不容易确定,在这种情况下,我们可以先采用Jeffrets Prior去获得一个先验分布的初始值,然后使用观测到的数据进行更新迭代。
  • 采样分布 sample distribution,是指观测数据 X X X在其参数条件下的分布,即 p ( X ∣ θ ) p(X|\theta) p(Xθ),更确切的说,由于 θ \theta θ服从参数条件 α \alpha α下的概率分布,采样分布也可以写为 p ( X ∣ θ , α ) p(X|\theta,\alpha) p(Xθ,α)。但是为了不引起歧义与混淆,我们一般都写为 p ( X ∣ θ ) p(X|\theta) p(Xθ)。采样分布有时候也被称为似然函数, 尤其是当其被视为是参数 θ \theta θ的函数时。有时候写作 L ( θ ∣ X ) = p ( X ∣ θ ) L(\theta|X) = p(X|\theta) L(θX)=p(Xθ)
  • 边际似然函数 marginal likelihood,有时也被称为证据evidence,是观测数据marginalized out θ \theta θ后得到的边缘分布,即 p ( X ∣ α ) = ∫ θ p ( X ∣ θ ) p ( θ ∣ α ) d θ p(X|\alpha ) = \int_\theta {p(X|\theta )p(\theta |\alpha )d\theta } p(Xα)=θp(Xθ)p(θα)dθ
  • 后验分布 posterior distribution 是指在考虑新观测的数据后的参数分布。它由贝叶斯规则决定,形成了贝叶斯推理的核心。

p ( θ ∣ X , α ) = p ( θ , X , α ) p ( X , α ) = p ( X ∣ θ , α ) p ( θ , α ) p ( X ∣ α ) p ( α ) = p ( X ∣ θ , α ) p ( θ ∣ α ) p ( X ∣ α ) ∝ p ( X ∣ θ , α ) p ( θ ∣ α ) p(\theta |X,\alpha ) = \frac{{p(\theta ,X,\alpha )}}{{p(X,\alpha )}} = \frac{{p(X|\theta ,\alpha )p(\theta ,\alpha )}}{{p(X|\alpha )p(\alpha )}} = \frac{{p(X|\theta ,\alpha )p(\theta |\alpha )}}{{p(X|\alpha )}} \propto p(X|\theta ,\alpha )p(\theta |\alpha ) p(θX,α)=p(X,α)p(θ,X,α)=p(Xα)p(α)p(Xθ,α)p(θ,α)=p(Xα)p(Xθ,α)p(θα)p(Xθ,α)p(θα)

用语言描述就是:后验正比于先验乘以似然。 后验等于似然乘以先验除以证据

“posterior is proportional to likelihood times prior”, or sometimes as “posterior = likelihood times prior, over evidence”

贝叶斯预测 Bayesian Prediction

  • 后验预测分布 Posterior predictive distribution,是新的数据点的概率分布。通过将后验概率边缘化而得到的。

p ( x ~ ∣ X , α ) = ∫ p ( x ~ ∣ θ ) p ( θ ∣ X , α ) d θ p(\tilde x|X,\alpha ) = \int {p(\tilde x|\theta )p(\theta |X,\alpha )d\theta } p(x~X,α)=p(x~θ)p(θX,α)dθ

  • 先验预测分布 Prior predictive distribution, 是新的数据点的概率分布,在先验概率上边缘化得到的。

p ( x ~ ∣ α ) = ∫ p ( x ~ ∣ θ ) p ( θ ∣ α ) d θ p(\tilde x|\alpha ) = \int {p(\tilde x|\theta )p(\theta |\alpha )d\theta } p(x~α)=p(x~θ)p(θα)dθ

贝叶斯理论要求使用后验预测分布来进行预测推断,即预测新的,未观测到的数据点的分布。也就是说,不再将一个固定点作为预测结果,而是返回一个可能点的分布。 只有这样才能使用参数 θ \theta θ的整个后验分布。相比之下,频率统计学中的预测常常需要寻找当前参数下的一个最优点估计,例如通过最大似然或者最大后验估计(MAP)。然后将这个最优点代入点的分布公式中。这样做的缺点是,它没有考虑任何参数的不确定性,所以会降低预测分布的方差。

两种类型的预测分布都有复合概率分布的形式(所以才有边际似然函数)。事实上,如果先验分布是共轭先验,那么先验分布和后验分布便来自于同一族,可以很容易看出,先验预测分布和后验预测分布同样来自于同一族的复合分布。唯一的不同在于,后验预测分布使用超参数更新后的值,而先验预测分布使用先验分布中出现的超参数的值。


如果觉得本文对您有帮助,请点个赞,是对作者最大的支持。

  • 37
    点赞
  • 114
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 贝叶斯推断(Bayesian inference)是一种基于贝叶斯定理的统计推断方法,用于从已知的先验概率和新的观测数据中推断出后验概率。在贝叶斯推断中,我们将先验概率和似然函数相乘,然后归一化,得到后验概率。这种方法在机器学习、人工智能、统计学等领域中广泛应用,可以用于分类、回归、聚类等任务。 ### 回答2: 贝叶斯推断是一种用于推断参数及其不确定性的统计分析方法。在贝叶斯推断中,参数被视作随机变量,其概率分布被称为先验分布,而由数据获得的信息被称为样本分布。利用贝叶斯定理,我们可以将样本分布与先验分布相结合,得出一个新的概率分布,称为后验分布。后验分布代表了参数的可能取值,且基于我们对样本数据的理解。 贝叶斯推断在机器学习、人工智能、数据挖掘等领域应用广泛。在分类问题中,贝叶斯推断可以通过样本数据和特征之间的关系来确定先验分布。在回归问题中,贝叶斯推断可以用于预测样本值,并给出相应的不确定性估计。 使用贝叶斯推断的优点之一是它的灵活性,可以将我们的先验知识纳入到推断中。贝叶斯推断还可以使用模型来解决一些困难的推断问题,比如高维数据的处理。但是,贝叶斯推断需要考虑到先验分布的选择和推断方法的影响,因此需要谨慎选择先验分布并使用分析方法来确定后验分布。 总之,贝叶斯推断提供了一个灵活的框架,可以在统计学和机器学习中进行推理。它是研究人员在面临高维数据和不确定问题时的有用工具,能够帮助研究人员更好地理解数据和模型,并做出更可靠的预测。 ### 回答3: 贝叶斯推断是一种基于贝叶斯定理的统计方法,它能够通过考虑数据和先验知识的组合,得到所需参数的后验概率分布。这种方法的目的是估计某些未知参数的后验概率分布函数,通过先验概率与观察数据的似然函数相乘,得到更新的后验概率分布函数。这种方法的特点是具有灵活的模型选择和基于数据的系统管理,能够处理高维数据和不完整数据。 贝叶斯推断主要分为两个步骤:先验概率分布和似然函数。先验概率分布表示对未知参数的概率的先验知识,而似然函数表示数据项给定参数下的条件概率。贝叶斯推断的目的是找到未知参数的后验概率分布函数,它是由先验概率分布和似然函数相乘得到。 贝叶斯推断的应用广泛,如在统计建模、机器学习、人工智能、信号处理、图象处理、计算生物学、自然语言处理等领域都有广泛的应用。在实际应用中,如何选择合适的先验概率分布和似然函数是贝叶斯推断的主要挑战之一。此外,如何处理复杂的高维数据和缺失数据,以及如何有效地计算后验概率分布等问题也是困扰贝叶斯推断的问题。 总之,贝叶斯推断作为一种基于贝叶斯定理的统计方法,能够处理复杂的模型参数估计问题,并在很多实际应用中得到了广泛的应用。然而,在实际应用中如何选择合适的先验概率分布和似然函数等问题需要继续研究和探索。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值