似然函数
在数理统计学中,似然函数(英语:likelihood function)是一种关于统计模型中的参数的函数,表示模型参数中的似然性(英语:likelihood)。似然函数在统计推断中有重大作用,如在最大似然估计和费雪信息之中的应用等等。文字意义上,“似然性”与“或然性”或“概率”意思相近,都是指某种事件发生的可能性,但是在统计学中,“似然性”和“概率”(或然性)有明确的区分:概率,用于在已知一些参数的情况下,预测接下来在观测上所得到的结果;似然性,则是用于在已知某些观测所得到的结果时,对有关事物之性质的参数进行估值,也就是说已观察到某事件后,对相关参数进行猜测。
“likelihood function”的各地常用别名中国大陆似然函数 港台概似函数在这种意义上,似然函数可以理解为条件概率的逆反。在已知某个参数B时,事件A会发生的概率写作:
P ( A ∣ B ) = P ( A , B ) P ( B ) {\displaystyle P(A\mid B)={\frac {P(A,B)}{P(B)}}\!}利用贝叶斯定理,
P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ) {\displaystyle P(B\mid A)={\frac {P(A\mid B)\;P(B)}{P(A)}}\!}因此,我们可以反过来构造表示似然性的方法:已知有事件A发生,运用似然函数 L ( B ∣ A ) {\displaystyle \mathbb {L} (B\mid A)} ,我们估计或猜测参数B的不同值的可能性。形式上,似然函数也是一种条件概率函数,但我们关注的变量改变了:
b ↦ P ( A ∣ B = b ) {\displaystyle b\mapsto P(A\mid B=b)\!}注意到这里并不要求似然函数满足归一性: ∑ b ∈ B P ( A ∣ B = b ) = 1 {\displaystyle \sum _{b\in {\mathcal {B}}}P(A\mid B=b)=1} 。一个似然函数乘以一个正的常数之后仍然是似然函数。对所有0}”> α > 0 {\displaystyle \alpha >0} 0″>,都可以有似然函数:
L ( b ∣ A ) = α P ( A ∣ B = b ) {\displaystyle L(b\mid A)=\alpha \;P(A\mid B=b)\!}例子
考虑投掷硬币的实验。通常来说,已知掷出一枚“公平的硬币”(即正面朝上和反面朝上的概率相同)时,正面(Head)朝上的概率为 p H = 0.5 {\displaystyle p_{H}=0.5} ,我们可以此推论得知投掷若干次后出现各种结果的可能性。比如说,连续投两次都是正面朝上的概率是 0.25 {\displaystyle 0.25} 。用条件概率表示,就是:
P ( HH ∣ p H = 0.5 ) = 0.5 2 = 0.25 {\displaystyle P({\mbox{HH}}\mid p_{H}=0.5)=0.5^{2}=0.25}其中 H {\displaystyle {\mbox{H}}} 表示正面朝上。
在统计学中,我们更关心的是在已知一系列投掷的结果时,关于单独投掷一次硬币时正面朝上的概率(即 p H {\displaystyle p_{H}} )为何。我们实际上是无法从一系列投掷的结果来逆推真实的 p H {\displaystyle p_{H}} ,但是我们可以推估 p H {\displaystyle p_{H}} 是某个值的可能性为何。举例来说,假设因为这可能不是一枚真正“公平的硬币”,所以我们不知道 p H {\displaystyle p_{H}} 是多少,也无法计算投掷三次硬币其中两次是正面的概率是多少。现在如果我们真的实际去掷了三次硬币,结果其中两次为正面,那我们是否能够依此次实验逆推出 p H {\displaystyle p_{H}} 的资讯?如果无法逆推出真实的 p H {\displaystyle p_{H}} ,那我们有没有办法知道,譬如说 p H = 0.5 {\displaystyle p_{H}=0.5} 的可能性为何? p H = 0.6 {\displaystyle p_{H}=0.6} 的可能性又为何?或甚至再更退一步,至少我们能不能知道 p H = 0.5 {\displaystyle p_{H}=0.5} 跟 p H = 0.6 {\displaystyle p_{H}=0.6} 哪一个比较有可能?
投掷一次硬币,正面朝上的概率用 p H {\displaystyle p_{H}} 来代表,它就是我们这个例子的参数,而我们用事件 A {\displaystyle {\mbox{A}}} 来代表投掷三次硬币其中两次是正面这个事实。使用联合概率(英语:joint probability)计算可知
P ( A ∣ p H ) = 3 × p H 2 × ( 1 − p H ) {\displaystyle P({\mbox{A}}\mid p_{H})=3\times p_{H}^{2}\times (1-p_{H})}我们首先假设 p H = 0.5 {\displaystyle p_{H}=0.5} ,则看到三次投掷中两次是正面的概率为 P ( A ∣ p H = 0.5 ) = 0.375 {\displaystyle P({\mbox{A}}\mid p_{H}=0.5)=0.375} 。再来如果假设 p H = 0.6 {\displaystyle p_{H}=0.6} ,则看到三次投掷中两次是正面的概率为 P ( A ∣ p H = 0.6 ) = 0.432 {\displaystyle P({\mbox{A}}\mid p_{H}=0.6)=0.432} 。显然地,如果 p H = 0.6 {\displaystyle p_{H}=0.6} 的话,我们看到两个正面的机会比较高。所以当我们投掷了三次硬币并且看到了两次正面,即使我们无法知道实际 p H {\displaystyle p_{H}} 到底是多少,我们至少知道 p H {\displaystyle p_{H}} 是 0.6 {\displaystyle 0.6} 的可能性比是 0.5 {\displaystyle 0.5} 的可能性还要高。我们可以合理猜测, p H {\displaystyle p_{H}} 比较可能是 0.6 {\displaystyle 0.6} 而非 0.5 {\displaystyle 0.5} 。
这里我们就引进了似然性的概念:似然性代表某个参数为特定值的可能性。从上面例子得知在已观察到事件 A {\displaystyle {\mbox{A}}} 的情况下,关于事件A的似然估计为
L ( p H ∣ A ) = P ( A ∣ p H ) {\displaystyle L(p_{H}\mid {\mbox{A}})=P({\mbox{A}}\mid p_{H})}其中 p H {\displaystyle p_{H}} 为我们所要确定的参数。所以当我们投掷硬币三次,其中两次是正面,则 p H = 0.5 {\displaystyle p_{H}=0.5} 的似然性是 L ( p H = 0.5 ∣ A ) = P ( A ∣ p H = 0.5 ) = 0.375 {\displaystyle L(p_{H}=0.5\mid {\mbox{A}})=P({\mbox{A}}\mid p_{H}=0.5)=0.375} ,而 p H = 0.6 {\displaystyle p_{H}=0.6} 的似然性是 L ( p H = 0.6 ∣ A ) = P ( A ∣ p H = 0.6 ) = 0.432 {\displaystyle L(p_{H}=0.6\mid {\mbox{A}})=P({\mbox{A}}\mid p_{H}=0.6)=0.432} 。注意, L ( p H = 0.5 ∣ A ) = 0.375 {\displaystyle L(p_{H}=0.5\mid {\mbox{A}})=0.375} 并不是说当已知 A {\displaystyle {\mbox{A}}} 发生了,则 p H {\displaystyle p_{H}} 为 0.5 {\displaystyle 0.5} 的概率是 0.375 {\displaystyle 0.375} 。似然性跟概率具有不同的意义。
若单独看 0.375 {\displaystyle 0.375} 这个数字或 0.432 {\displaystyle 0.432} 这个数字是没有意义的,因为似然性并不是概率,并不是一定介于 0 {\displaystyle 0} 到 1 {\displaystyle 1} 之间,而所有可能的 p H {\displaystyle p_{H}} 的似然性加起来也不是 1 {\displaystyle 1} ,所以单独得知 L ( p H = 0.5 ∣ A ) = 0.375 {\displaystyle L(p_{H}=0.5\mid {\mbox{A}})=0.375} 是没有意义的。似然性是用在把各种可能的 p H {\displaystyle p_{H}} 值放在一起比较,来得知哪个 p H {\displaystyle p_{H}} 值的可能性比较高。而似然函数(在这个例子中,即 L ( p H ∣ A ) = 3 × p H 2 × ( 1 − p H ) {\displaystyle L(p_{H}\mid {\mbox{A}})=3\times p_{H}^{2}\times (1-p_{H})} ),除了用来计算似然性外,则是用来了解当参数 p H {\displaystyle p_{H}} 改变时,似然性怎么变化,用来寻找最大可能性的 p H {\displaystyle p_{H}} 值会是多少。
图1所示为连续掷两次硬币都为正面的情况下(即此节开头的事件 HH {\displaystyle {\mbox{HH}}} ), p H {\displaystyle p_{H}} 从 0 {\displaystyle 0} 到 1 {\displaystyle 1} 的似然性。我们可以看出最大似然性发生在 p H = 1 {\displaystyle p_{H}=1} ,所以当我们投掷硬币两次,两次都正面时,我们可以猜说 p H {\displaystyle p_{H}} 最有可能是 1 {\displaystyle 1} (即使实际上 p H {\displaystyle p_{H}} 也许是 0.5 {\displaystyle 0.5} ,但我们无法知道这件事)。图2则为投掷硬币三次,其中两次为正面、一次为反面的情况下, p H {\displaystyle p_{H}} 从 0 {\displaystyle 0} 到 1 {\displaystyle 1} 的似然性。最大似然性发生在 p H = 2 3 {\displaystyle p_{H}={\frac {2}{3}}} 。所以当我们掷了三次硬币得到两次正面,最合理的猜测应该是 p H = 2 3 {\displaystyle p_{H}={\frac {2}{3}}} (同理,也许实际上 p H = 0.5 {\displaystyle p_{H}=0.5}
,但我们无从得知,所以只能做“最合理”猜测)。
我们可以得到一个结论:
对同一个似然函数,其所代表的模型中,某项参数值具有多种可能,但如果存在一个参数值,使得概似函数值达到最大的话,那么这个值就是该项参数最为“合理”的参数值。应用
最大似然估计
最大似然估计是似然函数最初也是最自然的应用。上文已经提到,似然函数取得最大值表示相应的参数能够使得统计模型最为合理。从这样一个想法出发,最大似然估计的做法是:首先选取似然函数(一般是概率密度函数或概率质量函数),整理之后求最大值点。实际应用中一般会取似然函数的对数作为求最大值的函数,这样求出的最大值点和直接求最大值点得到的结果是相同的。似然函数的最大值点不一定唯一,也不一定存在。与矩法估计比较,最大似然估计的精确度较高,信息损失较少,但计算量较大。
似然比检验
似然比检验是利用似然函数来检测某个假设(或限制)是否有效的一种检验。一般情况下,要检测某个附加的参数限制是否是正确的,可以将加入附加限制条件的较复杂模型的似然函数最大值与之前的较简单模型的似然函数最大值进行比较。如果参数限制是正确的,那么加入这样一个参数应当不会造成似然函数最大值的大幅变动。一般使用两者的比例来进行比较,这个比值是卡方分配。
尼曼-皮尔森引理说明,似然比检验是所有具有同等显著性差异的检验中最有统计效力的检验。