最大后验概率

最大后验概率

最大后验概率

此条目不符合维基百科的质量标准,需要完全重写。请在讨论页中讨论相关议题,并参考更优秀条目写作指南。

在贝叶斯统计学中,“最大后验概率估计”是后验概率分布的众数。利用最大后验概率估计可以获得对实验数据中无法直接观察到的量的点估计。它与最大似然估计中的经典方法有密切关系,但是它使用了一个增广的优化目标,进一步考虑了被估计量的先验概率分布。所以最大后验概率估计可以看作是规则化英语regularization (mathematics)的最大似然估计。

假设我们需要根据观察数据 x {\displaystyle x} 87f9e315fd7e2ba406057a97300593c4802b53e4.svg_-1 估计没有观察到的总体参数 θ {\displaystyle \theta } 6e5ab2664b422d53eb0c7df3b87e1360d75ad9af.svg_-1,让 f {\displaystyle f} 132e57acb643253e7810ee9702d9581f159a1c61.svg_-1 作为 x {\displaystyle x} 87f9e315fd7e2ba406057a97300593c4802b53e4.svg_-1采样分布,这样 f ( x | θ ) {\displaystyle f(x|\theta )} 5151115d7ffb7ac662c07581c6594610f37a1d09.svg_ 就是总体参数为 θ {\displaystyle \theta } 6e5ab2664b422d53eb0c7df3b87e1360d75ad9af.svg_-1 x {\displaystyle x} 87f9e315fd7e2ba406057a97300593c4802b53e4.svg_-1 的概率。函数

θ ↦ f ( x | θ ) {\displaystyle \theta \mapsto f(x|\theta )\!} 78cbacaed9f01775b7d87864ab54b740b5cccbcc.svg_

即为似然函数,其估计

θ ^ M L ( x ) = arg ⁡ max θ f ( x | θ ) {\displaystyle {\hat {\theta }}_{\mathrm {ML} }(x)=\arg \max _{\theta }f(x|\theta )\!} 090f60bb0592316d9d0cbca5b05606fd3a61850e.svg_

就是 θ {\displaystyle \theta } 6e5ab2664b422d53eb0c7df3b87e1360d75ad9af.svg_-1 的最大似然估计。

假设 θ {\displaystyle \theta } 6e5ab2664b422d53eb0c7df3b87e1360d75ad9af.svg_-1 存在一个先验分布 g {\displaystyle g} d3556280e66fe2c0d0140df20935a6f057381d77.svg_,这就允许我们将 θ {\displaystyle \theta } 6e5ab2664b422d53eb0c7df3b87e1360d75ad9af.svg_-1 作为 贝叶斯统计中的随机变量,这样 θ {\displaystyle \theta } 6e5ab2664b422d53eb0c7df3b87e1360d75ad9af.svg_-1 的后验分布就是:

θ ↦ f ( x | θ ) g ( θ ) ∫ Θ f ( x | θ ′ ) g ( θ ′ ) d θ ′ {\displaystyle \theta \mapsto {\frac {f(x|\theta )\,g(\theta )}{\int _{\Theta }f(x|\theta )\,g(\theta )\,d\theta }}\!} 75491c4a9a3b1a9bd74ecfce19c34e484e0d19ae.svg_

其中 Θ {\displaystyle \Theta } bc927b19f46d005b4720db7a0f96cd5b6f1a0d9b.svg_ g {\displaystyle g} d3556280e66fe2c0d0140df20935a6f057381d77.svg_ 的domain,这是贝叶斯定理的直接应用。

最后验估计方法于是估计 θ {\displaystyle \theta } 6e5ab2664b422d53eb0c7df3b87e1360d75ad9af.svg_-1 为这个随机变量的后验分布的众数:

θ ^ M A P ( x ) = arg ⁡ max θ f ( x | θ ) g ( θ ) ∫ Θ f ( x | θ ′ ) g ( θ ′ ) d θ ′ = arg ⁡ max θ f ( x | θ ) g ( θ ) {\displaystyle {\hat {\theta }}_{\mathrm {MAP} }(x)=\arg \max _{\theta }{\frac {f(x|\theta )\,g(\theta )}{\int _{\Theta }f(x|\theta )\,g(\theta )\,d\theta }}=\arg \max _{\theta }f(x|\theta )\,g(\theta )\!} 93da8a13f96abce242a0b2b344d62aab07fb752a.svg_

后验分布的分母与 θ {\displaystyle \theta } 6e5ab2664b422d53eb0c7df3b87e1360d75ad9af.svg_-1 无关,所以在优化过程中不起作用。注意当先验 g {\displaystyle g} d3556280e66fe2c0d0140df20935a6f057381d77.svg_ 是常数函数时最大后验估计与最大似然估计重合。

最大后验估计可以用以下几种方法计算:

解析方法,当后验分布的模能够用 解析解 方式表示的时候用这种方法。当使用共轭先验 的时候就是这种情况。 通过如共扼积分法或者牛顿法这样的数值优化方法进行,这通常需要一阶或者导数,导数需要通过解析或者数值方法得到。 通过 期望最大化算法 的修改实现,这种方法不需要后验密度的导数。

尽管最大后验估计与贝叶斯统计共享先验分布的使用,通常并不认为它是一种贝叶斯方法,这是因为最大后验估计是点估计,然而贝叶斯方法的特点是使用这些分布来总结数据、得到推论。贝叶斯方法试图算出后验均值或者中值以及posterior interval,而不是后验模。尤其是当后验分布没有一个简单的解析形式的时候更是这样:在这种情况下,后验分布可以使用 Markov chain Monte Carlo 技术来模拟,但是找到它的模的优化是很困难或者是不可能的。

参考文献

M. DeGroot, 最优统计决策, McGraw-Hill, (1970).

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注