样本均值

样本均值

样本均值

样本均值是由一个或多个随机变量中得到的统计量,样本均值是一个向量,其中的每个元素都是针对随机变量取様后得到的算术平均数。若只考虑一个随机变量,则样本均值为一个标量,是随机变量观测值的算术平均。

定义

x i j {\displaystyle x_{ij}} a27e97949cb2cc8f2d4c2a9421477a65f839db11.svg_为第j个随机变量(j=1,…,K)在第i次观测(i=1,…,N)到的值,所有观测值可以重组为N个K ×1的向量,其中第i次观测的所有数据用 x i {\displaystyle \mathbf {x} _{i}} 表示(i=1,…,N)。

算术平均向量 x ¯ {\displaystyle \mathbf {\bar {x}} } bb454526a3f653ca09bf61a5eea9d59998d5cd76.svg_的第j个元素 x ¯ j {\displaystyle {\bar {x}}_{j}} dbd27a85a9a24ada3c6e9742e788cc74447f266b.svg_是第j个随机变量在N次观测值的平均值:

x ¯ j = 1 N ∑ i = 1 N x i j , j = 1 , … , K . {\displaystyle {\bar {x}}_{j}={\frac {1}{N}}\sum _{i=1}^{N}x_{ij},\quad j=1,\ldots ,K.} 85bd16c95ba29bf8911fb154d619ef53358f5cd9.svg_

因此算术平均向量包括所有随机变量的平均值,可以用以下方式表示:

x ¯ = 1 N ∑ i = 1 N x i . {\displaystyle \mathbf {\bar {x}} ={\frac {1}{N}}\sum _{i=1}^{N}\mathbf {x} _{i}.}

样本均值是随机向量英语Multivariate random variable X {\displaystyle \textstyle \mathbf {X} } 1b8c6feeb921a6d81808b98802b5caee9ba103a3.svg_期望(若存在)的无偏估计英语Bias of an estimator,随机向量是一个列向量,其中第j个元素(j = 1, …, K)为第j个随机变量[1]

样本均值因为是用所有的观测值计算而得,稍微和每次的观测值有关。若总体平均 E ⁡ ( X ) {\displaystyle \operatorname {E} (\mathbf {X} )} 68878c1cca1f91eb92457636b91f0807fca1b5e0.svg_已知,其无偏估计值

q j k = 1 N ∑ i = 1 N ( x i j − E ⁡ ( X j ) ) ( x i k − E ⁡ ( X k ) ) , {\displaystyle q_{jk}={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{ij}-\operatorname {E} (X_{j})\right)\left(x_{ik}-\operatorname {E} (X_{k})\right),} 1b61631fc8c84f2a264919355d79046664f5b49c.svg_

用到总体平均,其分母为 N {\displaystyle \textstyle N}

样本均值的方差

本节中总假定出现的均值和方差都是存在的。对于每个随机变量,样本均值是总体平均的良好估计函数,其中的良好是指有效及无偏差。当然样本均值不会是统计总体真实均值的正确值,因为从同一个分布中不同的取様会产生不同的样本均值,也就对真实均值有不同的估计。因此样本均值也是随机变量,不是常数,因此也会有其分布随机变量。针对第j个随机变量N次观测的随机取様,其样本均值分布的均值会等于总体均值 E ( X j ) {\displaystyle E(X_{j})} ef180710714b2f68b87c6408ed8ee044c0590e92.svg_,而其方差会等于 σ j 2 N {\displaystyle {\frac {\sigma _{j}^{2}}{N}}} 3cf067769fee6195b01f62b2e6362ad3d618ee95.svg_,其中 σ j 2 {\displaystyle \sigma _{j}^{2}} 4b88aeadc2c7feec187eed15b827547aacc26a6a.svg_是随机变量Xj的方差。

评论

样本均值广为使用在统计学及相关应用中,不过也有其缺点。样本均值不是稳健统计英语robust statistics,容易受异常点英语outliers影响。在真实世界的应用中,一般会期望数据有稳健的性质,有其他方式可以计算类似样本均值的统计量,但又比样本均值要稳健,可以得到一些常见的量化统计量,例如様本众数和位置参数英语Location parameter有关[2]。其他的替代品包括Winsorising英语Winsorising修整估计量英语Trimmed estimator,例如Winsorized平均英语Winsorized mean修整平均英语trimmed mean

参考资料

^ Richard Arnold Johnson; Dean W. Wichern. Applied Multivariate Statistical Analysis. Pearson Prentice Hall. 2007 [10 August 2012]. ISBN 978-0-13-187715-3. (原始内容存档于2020-10-30). ^ The World Question Center 2006: The Sample Mean页面存档备份,存于互联网档案馆), Bart Kosko

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注