U-统计量
U-统计量是统计学中一类特定的、具有对称性的统计量,它在估计理论中扮演重要角色。名称中的“ U”为无偏(unbiased)之意。在初等统计学中,U-统计量与最小方差无偏估计量 (UMVUE) 有密切联系。
U-统计量的一个重要性是,对概率分布来说,其可估计参数的最小方差无偏估计量 是一个U-统计量。 [1][2] 因此通过研究U-统计量的一般性质,可以系统地了解这些估计量的统计学性质。[3]
U-统计量在非参数统计中尤其重要,不少用于估计和统计检验的统计量,在形式上都是U-统计量。U-统计量通常具有良好的渐近正态性,这方便了基于它的统计推断。 近年来,U-统计量在研究复杂的随机过程和随机网络类型数据的随机性质方面,发挥了作用。[4][5][6]
目前,统计学家们对U-统计量性质的了解,几乎全都基于Hoeffding发表于1948年的经典论文[7]。在这篇论文里,Hoeffding给出了U-统计量最重要的性质——它的ANOVA分解。
定义
定义 h ( x 1 , … , x r ) : R r → R {\displaystyle h(x_{1},\ldots ,x_{r}):\mathbb {R} ^{r}\to \mathbb {R} } 为一个函数,其具有对称性,即交换任意 x i , x j {\displaystyle x_{i},x_{j}} 的位置, h {\displaystyle h} 的值保持不变。对随机变量 X 1 , … , X n {\displaystyle X_{1},\ldots ,X_{n}} ,基于 h {\displaystyle h} 的U-统计量定义如下:
称为U-统计量的核函数(Kernel function),而核函数的维数 r {\displaystyle r} 称为该U-统计量的度(degree)。[8]两样本U-统计量
定义 h ( x 1 , … , x r ; y 1 , … , y s ) : R r + s → R {\displaystyle h(x_{1},\ldots ,x_{r};y_{1},\ldots ,y_{s}):\mathbb {R} ^{r+s}\to \mathbb {R} } 为一个函数,其对 X {\displaystyle X} 和 Y {\displaystyle Y} 分别具有对称性,即交换任意 x i 1 , x i 2 {\displaystyle x_{i_{1}},x_{i_{2}}} 的位置或交换任意 y j 1 , y j 2 {\displaystyle y_{j_{1}},y_{j_{2}}} 的位置, h {\displaystyle h} 的值保持不变(但不能随意交换 x i , y j {\displaystyle x_{i},y_{j}} )。对随机变量 X 1 , … , X m ; Y 1 , … , Y n {\displaystyle X_{1},\ldots ,X_{m};Y_{1},\ldots ,Y_{n}} ,基于 h {\displaystyle h} 的两样本U-统计量定义如下:
,例如能量距离和最大平均差异(MMD)。Hoeffding的ANOVA分解定理
定理表述
Hoeffding的ANOVA分解定理是现代U-统计量理论的基础。[9]为表述该定理,定义: μ = E [ h ( X 1 , … , X r ) ] {\displaystyle \mu =\mathbb {E} [h(X_{1},\ldots ,X_{r})]} 。 对所有 1 ≤ k ≤ r {\displaystyle 1\leq k\leq r} ,定义投影函数:
a k ( x 1 , … , x k ) = E [ h ( X 1 , … , X r ) | X 1 = x 1 , … , X k = x k ] − μ {\displaystyle a_{k}(x_{1},\ldots ,x_{k})=\mathbb {E} [h(X_{1},\ldots ,X_{r})|X_{1}=x_{1},\ldots ,X_{k}=x_{k}]-\mu }
然后定义正交化投影函数:
g 1 ( x 1 ) = a 1 ( x 1 ) {\displaystyle g_{1}(x_{1})=a_{1}(x_{1})} , g 2 ( x 1 , x 2 ) = a 2 ( x 1 , x 2 ) − g 1 ( x 1 ) − g 2 ( x 2 ) {\displaystyle g_{2}(x_{1},x_{2})=a_{2}(x_{1},x_{2})-g_{1}(x_{1})-g_{2}(x_{2})} ,等等,每一个 g k {\displaystyle g_{k}} 都定义为相应的 a k {\displaystyle a_{k}} 减去之前定义过的所有 g 1 , … , g k − 1 {\displaystyle g_{1},\ldots ,g_{k-1}} ,直至最后一个函数 g r {\displaystyle g_{r}} :
都满足:
E [ g k ( X 1 , … , X k ) | X 1 , … , X k − 1 ] = 0 {\displaystyle \mathbb {E} [g_{k}(X_{1},\ldots ,X_{k})|X_{1},\ldots ,X_{k-1}]=0}
因此,所有的分解项之间是互不相关的[9],并且度为 k {\displaystyle k} 的分解项之平均的阶为 O p ( n − k / 2 ) {\displaystyle O_{p}\left(n^{-k/2}\right)} .
在大多数应用中,一个U-统计量的ANOVA分解中最重要的是前一项或前两项。根据分解项的性质,可以得到如下的两项ANOVA分解式:
,则:
n 1 / 2 ( U n − μ ) → d N ( 0 , r 2 ξ 1 2 ) {\displaystyle n^{1/2}\left(U_{n}-\mu \right)\ {\stackrel {d}{\to }}\ N\left(0,r^{2}\xi _{1}^{2}\right)}同时,分解定理也指出了应该如何正确地一阶逼近U-统计量的方差,和对其进行t-标准化。
由该定理出发,在不同强度的假设条件下,可以用一项或两项的Edgeworth展开来高精度地逼近U-统计量的分布。[8][10][11][12]