U-统计量

U-统计量是统计学中一类特定的、具有对称性的统计量，它在估计理论中扮演重要角色。名称中的“ U”为无偏（unbiased）之意。在初等统计学中，U-统计量与最小方差无偏估计量 (UMVUE) 有密切联系。

U-统计量的一个重要性是，对概率分布来说，其可估计参数的最小方差无偏估计量是一个U-统计量。 [1][2] 因此通过研究U-统计量的一般性质，可以系统地了解这些估计量的统计学性质。[3]

U-统计量在非参数统计中尤其重要，不少用于估计和统计检验的统计量，在形式上都是U-统计量。U-统计量通常具有良好的渐近正态性，这方便了基于它的统计推断。近年来，U-统计量在研究复杂的随机过程和随机网络类型数据的随机性质方面，发挥了作用。[4][5][6]

目前，统计学家们对U-统计量性质的了解，几乎全都基于Hoeffding发表于1948年的经典论文[7]。在这篇论文里，Hoeffding给出了U-统计量最重要的性质——它的ANOVA分解。

定义

定义 h ( x 1 , … , x r ) : R r → R {\displaystyle h(x_{1},\ldots ,x_{r}):\mathbb {R} ^{r}\to \mathbb {R} } 2a860de64d92f7ae8a331339f1f4652432dd5a7e.svg_ 为一个函数，其具有对称性，即交换任意 x i , x j {\displaystyle x_{i},x_{j}} 1cd4d8ff7cb1b6282ffbee7cdfebd612cf5fb146.svg_ 的位置， h {\displaystyle h} b26be3e694314bc90c3215047e4a2010c6ee184a.svg_ 的值保持不变。对随机变量 X 1 , … , X n {\displaystyle X_{1},\ldots ,X_{n}} ac794f5521dcce89913085a6d566e7cdb615dbb0.svg_ ，基于 h {\displaystyle h} b26be3e694314bc90c3215047e4a2010c6ee184a.svg_ 的U-统计量定义如下：

称为U-统计量的核函数（Kernel function），而核函数的维数 r {\displaystyle r} 0d1ecb613aa2984f0576f70f86650b7c2a132538.svg_

称为该U-统计量的度（degree）。[8]

两样本U-统计量

定义 h ( x 1 , … , x r ; y 1 , … , y s ) : R r + s → R {\displaystyle h(x_{1},\ldots ,x_{r};y_{1},\ldots ,y_{s}):\mathbb {R} ^{r+s}\to \mathbb {R} } 73557f03414ceb9cbe2e63736569b394a78877b2.svg_ 为一个函数，其对 X {\displaystyle X} 68baa052181f707c662844a465bfeeb135e82bab.svg_ 和 Y {\displaystyle Y} 961d67d6b454b4df2301ac571808a3538b3a6d3f.svg_ 分别具有对称性，即交换任意 x i 1 , x i 2 {\displaystyle x_{i_{1}},x_{i_{2}}} 2e193b6a87de3f112f6298d2aba47b9876ad1b02.svg_ 的位置或交换任意 y j 1 , y j 2 {\displaystyle y_{j_{1}},y_{j_{2}}} bc96f59d565143c66399c28399b1c6c64c637d38.svg_ 的位置， h {\displaystyle h} b26be3e694314bc90c3215047e4a2010c6ee184a.svg_ 的值保持不变（但不能随意交换 x i , y j {\displaystyle x_{i},y_{j}} 58db36c71df5b8985d9058eeb3de47d282173026.svg_ ）。对随机变量 X 1 , … , X m ; Y 1 , … , Y n {\displaystyle X_{1},\ldots ,X_{m};Y_{1},\ldots ,Y_{n}} ce9db1d333c1304b75885e7f011d8b4c987a7547.svg_ ，基于 h {\displaystyle h} b26be3e694314bc90c3215047e4a2010c6ee184a.svg_ 的两样本U-统计量定义如下：

，例如能量距离和最大平均差异（MMD）。

Hoeffding的ANOVA分解定理

定理表述

Hoeffding的ANOVA分解定理是现代U-统计量理论的基础。[9]为表述该定理，定义： μ = E [ h ( X 1 , … , X r ) ] {\displaystyle \mu =\mathbb {E} [h(X_{1},\ldots ,X_{r})]} 2d92647ac257f78f0cbf7c4dec23707af0707c35.svg_ 。对所有 1 ≤ k ≤ r {\displaystyle 1\leq k\leq r} 3ffc32131b5b900ae2a090a800442fcfbc9be242.svg_ ，定义投影函数：

a k ( x 1 , … , x k ) = E [ h ( X 1 , … , X r ) | X 1 = x 1 , … , X k = x k ] − μ {\displaystyle a_{k}(x_{1},\ldots ,x_{k})=\mathbb {E} [h(X_{1},\ldots ,X_{r})|X_{1}=x_{1},\ldots ,X_{k}=x_{k}]-\mu }

然后定义正交化投影函数：

g 1 ( x 1 ) = a 1 ( x 1 ) {\displaystyle g_{1}(x_{1})=a_{1}(x_{1})} 2c2e1f266b3cc3db540cd59fe387be566ba3bb42.svg_ ， g 2 ( x 1 , x 2 ) = a 2 ( x 1 , x 2 ) − g 1 ( x 1 ) − g 2 ( x 2 ) {\displaystyle g_{2}(x_{1},x_{2})=a_{2}(x_{1},x_{2})-g_{1}(x_{1})-g_{2}(x_{2})} 2d6bca163ca0cb7949ba33b531cf270edcd78a89.svg_ ，等等，每一个 g k {\displaystyle g_{k}} de363eb168fab5e16a5acc74d8b0288e07a23aca.svg_ 都定义为相应的 a k {\displaystyle a_{k}} 05e256a120c3ab9f8958de71acdf81cd75065e3b.svg_ 减去之前定义过的所有 g 1 , … , g k − 1 {\displaystyle g_{1},\ldots ,g_{k-1}} 160138d6782cf7071f77aee26ec683a17bdbaf04.svg_ ，直至最后一个函数 g r {\displaystyle g_{r}} f0d1bd2f57d0dccfbad63ef69e4af10fb6993819.svg_ ：

都满足：

E [ g k ( X 1 , … , X k ) | X 1 , … , X k − 1 ] = 0 {\displaystyle \mathbb {E} [g_{k}(X_{1},\ldots ,X_{k})|X_{1},\ldots ,X_{k-1}]=0} 1b94318086299e6beba8c3cc192ed2959f990ea7.svg_

因此，所有的分解项之间是互不相关的[9]，并且度为 k {\displaystyle k} c3c9a2c7b599b37105512c5d570edc034056dd40.svg_ 的分解项之平均的阶为 O p ( n − k / 2 ) {\displaystyle O_{p}\left(n^{-k/2}\right)} a94d68f07213cdb40bf4182d839c6f42d95c704e.svg_ .

在大多数应用中，一个U-统计量的ANOVA分解中最重要的是前一项或前两项。根据分解项的性质，可以得到如下的两项ANOVA分解式：

，则:

n 1 / 2 ( U n − μ ) → d N ( 0 , r 2 ξ 1 2 ) {\displaystyle n^{1/2}\left(U_{n}-\mu \right)\ {\stackrel {d}{\to }}\ N\left(0,r^{2}\xi _{1}^{2}\right)}

同时，分解定理也指出了应该如何正确地一阶逼近U-统计量的方差，和对其进行t-标准化。

由该定理出发，在不同强度的假设条件下，可以用一项或两项的Edgeworth展开来高精度地逼近U-统计量的分布。[8][10][11][12]

具体例子

度为1的例子：令 h ( x ) = x {\displaystyle h(x)=x} 521da40b9f2ecc00f1defed136e4470651ab9d85.svg_

，则U-统计量 1 n ∑ i = 1 n h ( X i ) = X ¯ n {\displaystyle {\frac {1}{n}}\sum _{i=1}^{n}h(X_{i})={\bar {X}}_{n}} ce523550cc1e9cb2070a30b0d2956ef581335181.svg_

是样本均值。度为2的例子：令 h ( x 1 , x 2 ) = | x 1 − x 2 | {\displaystyle h(x_{1},x_{2})=|x_{1}-x_{2}|} 7bd2a8f71b673be801e9e898b18e04075cffd101.svg_

，则U-统计量，则U-统计量有如下变形：

U-统计量

U-统计量

目录

定义

两样本U-统计量

Hoeffding的ANOVA分解定理

定理表述

具体例子

发表回复取消回复

Featured News

De quattuor virtutibus caritatis (On the four virtues of charity)

Mailing lists

Press releases

Biographies (document genre)

Brief Bytes

1920 Windsor Locks High School Yearbook Windsor Locks CT

Photographs by Eadweard Muybridge.

Biographies (document genre)

1960 Windsor Locks High School Yearbook Windsor Locks CT

Snippet News

到期应收贷款

应付施工准备费

住房周转金

项目（工程）成本

应收贷款

到期应收贷款

应付施工准备费

住房周转金

项目（工程）成本

应收贷款

到期应收贷款

U-统计量

目录

定义

两样本U-统计量

Hoeffding的ANOVA分解定理

定理表述

具体例子

Related Posts

发表回复 取消回复

发表回复取消回复