估计理论

估计理论

估计理论

此条目需要精通或熟悉相关主题的编者参与及协助编辑。 (2018年7月12日)请邀请适合的人士改善本条目。更多的细节与详情请参见讨论页此条目不符合维基百科的质量标准,需要完全重写。请在讨论页中讨论相关议题,并参考更优秀条目写作指南。

估计理论是统计学和信号处理中的一个分支,主要是通过测量或经验数据来估计概率分布参数的数值。这些参数描述了实质情况或实际对象,它们能够回答估计函数提出的问题。

例如,估计投票人总体中,给特定候选人投票的人的比例。这个比例是一个不可观测的参数,因为投票人总体很大;估计值建立在投票者的一个小的随机采样上。

又如,雷达的目的是物体(飞机、船等)的定位。这种定位是通过分析收到的回声(回波)来实现的,定位提出的问题是“飞机在哪里?”为了回答这个问题,必须估计飞机到雷达之间的距离。如果雷达的绝对位置是已知的,那么飞机的绝对位置也是可以确定的。

在估计理论中,通常假定信息隐藏在包含噪声的信号中。噪声增加了不确定性,如果没有不确定性,那么也就没有必要估计了。

使用估计理论的领域

有非常多的领域使用参数估计理论。这些领域包括(当然不局限于以下列出的领域):

信号处理 X射线断层成像 脑电图 心电图 核磁共振 医学超声波扫描术 雷达、声纳、地震学——物件的定位 噪声方差 参数化(例如周期图相关图谱)分析 非参数化(例如MUSIC、Root-MUSICESPRIT)谱分析 维纳滤波 粒子滤波器 临床试验 民意调查 质量控制 通讯 信道参数 DC增益(请看下边的例子) 控制理论 卡尔曼滤波 随时间改变的执行器(英文:Actuator网络入侵侦查系统

测量参数包含噪声或者其他不确定性。通过统计概率,可以求得最优化的解,用来从数据中提取尽可能多的信息。

估计过程

估计理论的全部目的都是获取一个估计函数,最好是一个可以实现的估计函数。估计函数输入测量数据,输出相应参数的估计。

我们通常希望估计函数能最优,一个最优的估计意味着所有的信息都被提取出来了;如果还有信息没有提取出来,那就意味着它不是最优的。

一般来说,求估计函数需要三步:

为了实现一个预测单个或者多个参数的所期望的估计器,首先需要确定系统的模型。这个模型需要将需要建模的过程以及不确定性和和噪声融合到一起,这个模型将描述参数应用领域的物理场景。 在确定模型之后,需要确定估计器的限制条件。这些限制条件可以通过如Cramér-Rao不等式这样的方法找到。 下一步,需要开发一个估计器或者应用一个已知的对于模型有效的估计器。这个估计器需要根据限制条件进行测试以确定它是否是最优估计器,如果是的话,它就是最好的估计器。 最后,在估计器上运行试验或者仿真以测试性能。

当实现一个估计器之后,实际的数据有可能证明推导出估计器的模型是不正确的,这样的话就需要重复上面的过程重新寻找估计器。不能实现的估计器需要抛弃,然后开始一个新的过程。总的来说,估计器根据实际测量的数据预测物理模型的参数。

基础

对于给定模型,估计器需要若干统计 “成分”才能实现。第一,统计样本从长度为 N 的随机向量英语Multivariate_random_variable(Random Variable,RV)中采样获得,观测值构成向量:

x = [ x [ 0 ] x [ 1 ] ⋮ x [ N − 1 ] ] . {\displaystyle \mathbf {x} ={\begin{bmatrix}x[0]\\x[1]\\\vdots \\x[N-1]\end{bmatrix}}.} 3e73cc498b4c467a2b8efe9650edf8930df68d7f.svg_

第二,有 M 个参数:

θ = [ θ 1 θ 2 ⋮ θ M ] , {\displaystyle {\boldsymbol {\theta }}={\begin{bmatrix}\theta _{1}\\\theta _{2}\\\vdots \\\theta _{M}\end{bmatrix}},} 6b7cad00bbddbee6afe48a156ea7cc2f87e690e0.svg_

它们的值需要被估计。第三,用于生成连续数据的概率密度函数(Probability density function,PDF)或离散数据的概率质量函数(Probability mass function,PMF)以参数值为条件(这些概率函数潜在存在),即条件概率为:

p ( x | θ ) . {\displaystyle p(\mathbf {x} |{\boldsymbol {\theta }}).\,} cde10898898af45036b9313e4e55f13a626f6d77.svg_

参数自身可能也存在概率分布(如贝叶斯统计),此时就需要定义贝叶斯概率:

π ( θ ) . {\displaystyle \pi ({\boldsymbol {\theta }}).\,} f30ed5642305867ca2b0db777819b098c8b6255b.svg_

模型形成后,目标是估计参数,估计的参数通常表示为 θ ^ {\displaystyle {\hat {\boldsymbol {\theta }}}} ca32f6d693b0a183a7728b875f7e2042bb1dbca2.svg_,其中 ⋅ ^ {\displaystyle {\hat {\cdot }}} 805ae1c24062c6bb577cc57262c9c74aaf0cb4ab.svg_ 表示估计值。

常用的估计器包括最小均方误差(Minimum mean squared error,MMSE)估计器,它利用了估计参数和参数实际值之间的误差:

e = θ ^ − θ {\displaystyle \mathbf {e} ={\hat {\boldsymbol {\theta }}}-{\boldsymbol {\theta }}} d1fcb666c9b3544329735fb093caec9da7d623de.svg_

作为优化的基础。该误差项平方的期望对MMSE估计器来说是最小的。

估计函数(估计子)

以下是一些相关的估计函数以及相关的主题

最大似然估计(Maximum likelihood estimation,简称MLE) 贝叶斯估计器英语Bayes_estimator(Bayes estimator) 矩估计(Method of moments estimators,简称MME) Cramér-Rao界英语Cramér–Rao_bound 最小二乘法(Least squares) 最小均方差(Minimum mean squared error,简称MMSE) 最大后验概率(Maximum a posteriori probability,简称MAP) 最小方差无偏估计(Minimum variance unbiased estimator,简称MVUE) 非线性系统识别英语Nonlinear_system_identification(Nonlinear system identification) 最佳线性非偏估计(BLUE) 非偏估计,见偏差 (统计学)。 粒子滤波器(Particle filter) 马尔可夫链蒙特卡洛(Markov chain Monte Carlo,简称MCMC) 卡尔曼滤波 维纳滤波

例子:高斯白噪声中的直流增益

考虑由 N {\displaystyle N} f5e3890c981ae85503089652feb48b191b57aae3.svg_-1个独立采样点构成的离散信号 x [ n ] {\displaystyle x[n]} 864cbbefbdcb55af4d9390911de1bf70167c4a3d.svg_,它由常数 A {\displaystyle A} 7daff47fa58cdfd29dc333def748ff5fa4c923e3.svg_和零均值、方差 σ 2 {\displaystyle \sigma ^{2}} 53a5c55e536acf250c1d3e0f754be5692b843ef5.svg_-1加性高斯白噪声 w [ n ] {\displaystyle w[n]} 2a4e3e5afc2a8c6da9020b8c6b21450959101a18.svg_(即 N ( 0 , σ 2 ) {\displaystyle {\mathcal {N}}(0,\sigma ^{2})} a12e4999caaf1154cee3440edde18c9e5f66a8da.svg_)构成。方差已知,未知参数为 A {\displaystyle A} 7daff47fa58cdfd29dc333def748ff5fa4c923e3.svg_

信号的模型为:

x [ n ] = A + w [ n ] n = 0 , 1 , … , N − 1 {\displaystyle x[n]=A+w[n]\quad n=0,1,\dots ,N-1} e1d88a9335e74132ddc42f3f9845e4b3a6eeb0a1.svg_

参数 A {\displaystyle A} 7daff47fa58cdfd29dc333def748ff5fa4c923e3.svg_的两个可能的估计器是:

A ^ 1 = x [ 0 ] {\displaystyle {\hat {A}}_{1}=x[0]} 7efe6653cd0810309227e87ae4e1506100c0ef98.svg_ A ^ 2 = 1 N ∑ n = 0 N − 1 x [ n ] {\displaystyle {\hat {A}}_{2}={\frac {1}{N}}\sum _{n=0}^{N-1}x[n]} 0037a0e52e042f684bc642f133818d8106fc2a62.svg_,即采样平均(Sample mean)

通过计算两个估计器的期望可以发现,它们的均值均为 A {\displaystyle A} 7daff47fa58cdfd29dc333def748ff5fa4c923e3.svg_

E [ A ^ 1 ] = E [ x [ 0 ] ] = A {\displaystyle \mathrm {E} \left[{\hat {A}}_{1}\right]=\mathrm {E} \left[x[0]\right]=A} e8eea7a9306f8e8ad9ec4eba1e66d6c3b680a791.svg_

E [ A ^ 2 ] = E [ 1 N ∑ n = 0 N − 1 x [ n ] ] = 1 N [ ∑ n = 0 N − 1 E [ x [ n ] ] ] = 1 N [ N A ] = A {\displaystyle \mathrm {E} \left[{\hat {A}}_{2}\right]=\mathrm {E} \left[{\frac {1}{N}}\sum _{n=0}^{N-1}x[n]\right]={\frac {1}{N}}\left[\sum _{n=0}^{N-1}\mathrm {E} \left[x[n]\right]\right]={\frac {1}{N}}\left[NA\right]=A} 38009589e38e8b364cbf62318a2c067de3d5c02f.svg_

两个估计器的均值没有差异,然而它们的方差不同:

v a r ( A ^ 1 ) = v a r ( x [ 0 ] ) = σ 2 {\displaystyle \mathrm {var} \left({\hat {A}}_{1}\right)=\mathrm {var} \left(x[0]\right)=\sigma ^{2}} d5bfcf819ea5feb58537ac1b60805a06aa6ef62d.svg_

v a r ( A ^ 2 ) = v a r ( 1 N ∑ n = 0 N − 1 x [ n ] ) = 1 N 2 [ ∑ n = 0 N − 1 v a r ( x [ n ] ) ] = 1 N 2 [ N σ 2 ] = σ 2 N {\displaystyle \mathrm {var} \left({\hat {A}}_{2}\right)=\mathrm {var} \left({\frac {1}{N}}\sum _{n=0}^{N-1}x[n]\right)={\frac {1}{N^{2}}}\left[\sum _{n=0}^{N-1}\mathrm {var} (x[n])\right]={\frac {1}{N^{2}}}\left[N\sigma ^{2}\right]={\frac {\sigma ^{2}}{N}}} a0235ae36ae0f2173a50fb57996b485702d8a37a.svg_

1}”> N > 1 {\displaystyle N>1} 1″ src=”/media/math_img/82695/001be86c3d8ec97f9b8194bb9ee5c282a5602d40.svg” usemap=”undefined” style=”width: 6.325ex; height: 2.176ex; vertical-align: -0.338ex;”>时,是一个更好的估计器。

最大似然估计

使用最大似然估计继续上面的例子,噪声在采样点 w [ n ] {\displaystyle w[n]} 2a4e3e5afc2a8c6da9020b8c6b21450959101a18.svg_上的概率密度函数(pdf)为:

p ( w [ n ] ) = 1 σ 2 π exp ⁡ ( − 1 2 σ 2 w [ n ] 2 ) {\displaystyle p(w[n])={\frac {1}{\sigma {\sqrt {2\pi }}}}\exp \left(-{\frac {1}{2\sigma ^{2}}}w[n]^{2}\right)} 6afa77b39956d597a829a9d79c9e00382d3599f9.svg_

此时 x [ n ] {\displaystyle x[n]} 864cbbefbdcb55af4d9390911de1bf70167c4a3d.svg_的概率为( x [ n ] {\displaystyle x[n]} 864cbbefbdcb55af4d9390911de1bf70167c4a3d.svg_服从分布 N ( A , σ 2 ) {\displaystyle {\mathcal {N}}(A,\sigma ^{2})} 49ee6e1d6665c53e6950e393286c08b9f759baae.svg_):

p ( x [ n ] ; A ) = 1 σ 2 π exp ⁡ ( − 1 2 σ 2 ( x [ n ] − A ) 2 ) {\displaystyle p(x[n];A)={\frac {1}{\sigma {\sqrt {2\pi }}}}\exp \left(-{\frac {1}{2\sigma ^{2}}}(x[n]-A)^{2}\right)}

由于相互独立, x {\displaystyle \mathbf {x} } 32adf004df5eb0a8c7fd8c0b6b7405183c5a5ef2.svg_的概率为:

p ( x ; A ) = ∏ n = 0 N − 1 p ( x [ n ] ; A ) = 1 ( σ 2 π ) N exp ⁡ ( − 1 2 σ 2 ∑ n = 0 N − 1 ( x [ n ] − A ) 2 ) {\displaystyle p(\mathbf {x} ;A)=\prod _{n=0}^{N-1}p(x[n];A)={\frac {1}{\left(\sigma {\sqrt {2\pi }}\right)^{N}}}\exp \left(-{\frac {1}{2\sigma ^{2}}}\sum _{n=0}^{N-1}(x[n]-A)^{2}\right)} 3f2ece3340c919b3f79fd607bf9dad576368a439.svg_

对上式取自然对数:

ln ⁡ p ( x ; A ) = − N ln ⁡ ( σ 2 π ) − 1 2 σ 2 ∑ n = 0 N − 1 ( x [ n ] − A ) 2 {\displaystyle \ln p(\mathbf {x} ;A)=-N\ln \left(\sigma {\sqrt {2\pi }}\right)-{\frac {1}{2\sigma ^{2}}}\sum _{n=0}^{N-1}(x[n]-A)^{2}} cfd2fb56c98155b49d5e330ea4db342ee0b6de2e.svg_

于是最大似然估计器为:

A ^ = arg ⁡ max ln ⁡ p ( x ; A ) {\displaystyle {\hat {A}}=\arg \max \ln p(\mathbf {x} ;A)} 5f9645b5ea7db9045f33f53fbc7e78952c192fe9.svg_

计算对数-最大似然函数的一阶导数

∂ ∂ A ln ⁡ p ( x ; A ) = 1 σ 2 [ ∑ n = 0 N − 1 ( x [ n ] − A ) ] = 1 σ 2 [ ∑ n = 0 N − 1 x [ n ] − N A ] {\displaystyle {\frac {\partial }{\partial A}}\ln p(\mathbf {x} ;A)={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}(x[n]-A)\right]={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}x[n]-NA\right]} 8a674d68209284a5a9468459f08aa06057c5c01d.svg_

令其为0:

0 = 1 σ 2 [ ∑ n = 0 N − 1 x [ n ] − N A ] = ∑ n = 0 N − 1 x [ n ] − N A {\displaystyle 0={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}x[n]-NA\right]=\sum _{n=0}^{N-1}x[n]-NA} 541b7836252bb44ad16ad11bf3d1a5a77057cf29.svg_

得到最大似然估计器:

A ^ = 1 N ∑ n = 0 N − 1 x [ n ] {\displaystyle {\hat {A}}={\frac {1}{N}}\sum _{n=0}^{N-1}x[n]} 3c08685bf87326e0644e61bb668cb63f20555181.svg_

它是一个简单的采样平均。从这个例子中可以发现,被独立同分布的加性高斯白噪声污染的、由未知常数构成的 N {\displaystyle N} f5e3890c981ae85503089652feb48b191b57aae3.svg_-1点信号的最大似然估计其就是采样平均。

Cramér-Rao下限

为了找到采样平均估计器的Cramér-Rao下限(CRLB),需要找到Fisher information数

I ( A ) = E ( [ ∂ ∂ θ ln ⁡ p ( x ; A ) ] 2 ) = − E [ ∂ 2 ∂ θ 2 ln ⁡ p ( x ; A ) ] {\displaystyle {\mathcal {I}}(A)=\mathrm {E} \left(\left[{\frac {\partial }{\partial \theta }}\ln p(\mathbf {x} ;A)\right]^{2}\right)=-\mathrm {E} \left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\ln p(\mathbf {x} ;A)\right]} 44e595795eec438eca51a4c171e19d78699f62e8.svg_

从上面得到

∂ ∂ A ln ⁡ p ( x ; A ) = 1 σ 2 [ ∑ n = 0 N − 1 x [ n ] − N A ] {\displaystyle {\frac {\partial }{\partial A}}\ln p(\mathbf {x} ;A)={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}x[n]-NA\right]} 4a63946819cd04e4f699945d43d31f4c3cfdfb4b.svg_

取二阶导数

∂ 2 ∂ A 2 ln ⁡ p ( x ; A ) = 1 σ 2 ( − N ) = − N σ 2 {\displaystyle {\frac {\partial ^{2}}{\partial A^{2}}}\ln p(\mathbf {x} ;A)={\frac {1}{\sigma ^{2}}}(-N)={\frac {-N}{\sigma ^{2}}}} 2b465485d523bec9a8a4bb272a31eac46a9283b8.svg_

发现负的期望值是无关紧要的(trivial),因为它现在是一个确定的常数

− E [ ∂ 2 ∂ A 2 ln ⁡ p ( x ; A ) ] = N σ 2 {\displaystyle -\mathrm {E} \left[{\frac {\partial ^{2}}{\partial A^{2}}}\ln p(\mathbf {x} ;A)\right]={\frac {N}{\sigma ^{2}}}} 96435e2d46975d62eb7267464a6029593ba07ad1.svg_

最后,将Fisher information代入

v a r ( A ^ ) ≥ 1 I {\displaystyle \mathrm {var} \left({\hat {A}}\right)\geq {\frac {1}{\mathcal {I}}}}

得到

v a r ( A ^ ) ≥ σ 2 N {\displaystyle \mathrm {var} \left({\hat {A}}\right)\geq {\frac {\sigma ^{2}}{N}}} 17f1f76e9bd4354883d19cc99192a432ec6e58b3.svg_

将这个值与前面确定的采样平均的变化比较显示对于所有的 N {\displaystyle N} f5e3890c981ae85503089652feb48b191b57aae3.svg_-1 A {\displaystyle A} 7daff47fa58cdfd29dc333def748ff5fa4c923e3.svg_来说采样平均都是等于Cramér-Rao下限。

采样平均除了是最大似然估计器之外还是最小变化无偏估计器(MVUE)。

这个直流增益 + WGN的例子是Kay的统计信号处理基础中一个例子的再现。

相关书籍

Fundamentals of Statistical Signal Processing: Estimation Theory by Steven M. Kay (编辑 偏差 检测理论 信息论 最大似然估计 矩方法 最小均方差(MMSE) 最大后验概率(MAP) 卡尔曼滤波 维纳滤波 最小平方频谱分析法(LSSA)

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注