参数估计——基于网格的方法

LeoBoML

已于 2023-04-02 14:42:14 修改

阅读量439

点赞数

分类专栏：计算机近似算法机器学习文章标签：算法人工智能

于 2023-01-31 15:20:49 首次发布

本文链接：https://blog.csdn.net/weixin_48266700/article/details/128807748

版权

机器学习同时被 3 个专栏收录

11 篇文章 2 订阅

订阅专栏

计算机

6 篇文章 2 订阅

订阅专栏

近似算法

3 篇文章 0 订阅

订阅专栏

参数估计——基于网格的方法

引言

近似后验分布 $P_r(\theta|d)$ 的最简单的数值方法是将所有计算基于在规则网格上评估的（不一定是归一化的）密度值阵列。分布上的积分近似为简单的和，计算其他标准导出量相当简单。

网格方法的优缺点

基于网格的方法的优点

准确性/速度，因为评估的规则间隔意味着冗余最小——标准推导量的估计误差随着样本数量的增加而减少；
可重复性，因为(仅假设网格参数保持固定，后验密度可以直接评估)如果重新计算，结果将是相同的；
简单，因为建立规则网格的算法并不复杂；
没有标准化要求，因为可以使用非标准化后验值网格。

基于网格的方法的缺点，或者说是局限性

需要一些参数值范围的外部知识，对于这些参数值来说，后验是重要的(虽然先验范围可能是足够的，但通常是不够的)；
如果存在后验误差，则潜在的“系统性”误差是周期性的，或者在与网格点之间的间隔相当的尺度上变化；
这种方法仅适用于低维问题(任何超过3-4个参数的问题在计算上都是不可行的)；
编写代码来处理任意维数的网格可能会很笨拙。

生成后验样本数组并将其处理成有用输出所需的算法非常简单，当然比它们的纯数学表达式简单得多，尤其是在多维环境中。用算法来描述它们要自然得多。这里给出了二元后验分布 $P_r(θ|d) = P_r(x,y|d)$ 的方法，其中 $N_p = 2，θ = (x,y)$ ；对更高(或更低)维问题的概括在概念上是简单明了的。

网格生成

对于基于网格的方法，对分布 $P_r(x,y|d)$ 的访问(即，评估的能力)不是充分的起点。需要一些信息来决定要考虑的参数值范围：必须能够确定 $x_{min}、x_{max}、y_{min}和y_{max}$ 的值，使得 $P_r(x_{min}≤x≤x_{max}，y_{min} ≤ y ≤ y_{max}|d)$ $\ll$ 1(即，由 $x_{min}、x_{max}、y_{min}和y_{max }$ 界定的区域包含几乎所有的概率)。然而，仅仅使这个范围变得任意大是不够的，因为大部分(如果不是全部的话)网格点将落在低概率区域。有一些通用的算法可以做到这一点(采样方法)，但是如果不得不求助于这些算法，就会在很大程度上违背基于网格的方法的目的。因此，这里假设 $x_{min}、x_{max}、y_{min}和y_{max }$ 的合理值是从一些外部信息中得知的，尽管不能过分强调的是，如果这样的限制不能容易地获得，那么基于网格的方法可以立即变得无用。

下一个要做的决定是网格的分辨率，由列数 $N_c$ 和行数 $N_r$ 定义。这种选择受制于精度与速度之间的权衡。

每个维度的最低值是10；对于现实问题中经常遇到的后验分布，任何大于 $10^2$ 的值通常都是不必要的。与产品系列一样，这也要经过一定程度的反复试验。

因此，网格覆盖 $x_{\min } \leq x \leq x_{\max }$ 和 $y_{\min } \leq y \leq y_{\max }$ 的范围，具有 $N_{\mathrm{c}} \times N_{\mathrm{r}}$ 个面积为 $\Delta x \times \Delta y$ 的单元阵列，其中 $\Delta x=\left(x_{\max }-x_{\min }\right) / 2$ , $\Delta y=\left(y_{\max }-y_{\min }\right) / 2$ 。从这一点出发，遵循以下规定的算法:

1.对于每个列组合, $c\left(\in\left\{1,2, \ldots, N_{\mathrm{c}}\right\}\right)$ 和行组合, $r\left(\in\left\{1,2, \ldots, N_{\mathrm{r}}\right\}\right)$ 计算，

$\left(x_{c}, y_{r}\right)=\left[x_{\min }+\frac{c-1 / 2}{N_{\mathrm{c}}}\left(x_{\max }-x_{\min }\right), y_{\min }+\frac{r-1 / 2}{N_{\mathrm{r}}}\left(y_{\max }-y_{\min }\right)\right],$

其中选择位于每个网格单元中间的点。

对于数组中的每个元素，计算非标准化后验概率，

$p_{c, r}^{\prime}=\operatorname{Pr}(x, y) \operatorname{Pr}(\boldsymbol{d} \mid x, y) .$

3.通过计算对后验样本进行数值归一化

$p_{c, r}=\frac{p_{c, r}^{\prime}}{\sum_{c=1}^{N_{\mathrm{c}}} \sum_{r=1}^{N_{\mathrm{r}}} p_{c, r}^{\prime}} .$

尽管这一步有时是不必要的，但它在数值上是廉价的，并简化了随后的分析

对后验概率的分段常数近似现在由下式提供

$\begin{array}{c} \operatorname{Pr}(x, y \mid \boldsymbol{d}) \simeq \frac{1}{\left(x_{\max }-x_{\min }\right)\left(y_{\max }-y_{\min }\right)} \sum_{c=1}^{N_{\mathrm{c}}} \sum_{r=1}^{N_{\mathrm{r}}}\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad \\ \Theta\left[x-\left(x_{c}-\Delta x / 2\right)\right] \Theta\left[\left(x_{c}+\Delta x / 2\right)-x\right] \Theta\left[y-\left(y_{c}-\Delta y / 2\right)\right] \Theta\left[\left(y_{c}+\Delta y / 2\right)-y\right] p_{c, r}\qquad\qquad\qquad, \end{array}$

在网格覆盖的区域之外为零。更复杂的插值方案也可以用于从 ${p_{c,r}}$ 到为所有x和y定义的分布，但是要点是连续函数 $P_r(x_c,y_r|d)$ 现在被编码(尽管是近似的)在有限的数集合 ${p_{c,r}}$ 中。

参考文献

https://docslib.org/doc/8720468/parameter-estimation-daniel-mortlock-mortlock-ic-ac-uk-last-modi-ed-september-12-2013

Feroz, F., Hobson, M. P., and Bridges, M. (2009). MULTINEST: an efficient and robust Bayesian inference tool for cosmology and particle physics. Monthly Notices of the Royal Astronomical Society, 398, 1601–1614.

Gelman, A. and Rubin, D. B. (1992). Inference from iterative simulation using multiple sequences. Statistical Science, 7, 457–511.

Skilling, J. (2004). Nested sampling. In AIP Conference Proceedings of the 24th International Workshop on Bayesian Inference and Maximum Entropy Methods in Science and Engineering, volume 735 of Lecture Notes in Physics, Berlin Springer Verlag, pages 395–405.