样本均值

样本均值是由一个或多个随机变量中得到的统计量，样本均值是一个向量，其中的每个元素都是针对随机变量取様后得到的算术平均数。若只考虑一个随机变量，则样本均值为一个标量，是随机变量观测值的算术平均。

定义

令 x i j {\displaystyle x_{ij}} a27e97949cb2cc8f2d4c2a9421477a65f839db11.svg_ 为第j个随机变量（j=1,…,K）在第i次观测（i=1,…,N）到的值，所有观测值可以重组为N个K ×1的向量，其中第i次观测的所有数据用 x i {\displaystyle \mathbf {x} _{i}} 表示（i=1,…,N）。

算术平均向量 x ¯ {\displaystyle \mathbf {\bar {x}} } bb454526a3f653ca09bf61a5eea9d59998d5cd76.svg_ 的第j个元素 x ¯ j {\displaystyle {\bar {x}}_{j}} dbd27a85a9a24ada3c6e9742e788cc74447f266b.svg_ 是第j个随机变量在N次观测值的平均值：

x ¯ j = 1 N ∑ i = 1 N x i j , j = 1 , … , K . {\displaystyle {\bar {x}}_{j}={\frac {1}{N}}\sum _{i=1}^{N}x_{ij},\quad j=1,\ldots ,K.} 85bd16c95ba29bf8911fb154d619ef53358f5cd9.svg_

因此算术平均向量包括所有随机变量的平均值，可以用以下方式表示：

x ¯ = 1 N ∑ i = 1 N x i . {\displaystyle \mathbf {\bar {x}} ={\frac {1}{N}}\sum _{i=1}^{N}\mathbf {x} _{i}.}

样本均值是随机向量（英语：Multivariate random variable） X {\displaystyle \textstyle \mathbf {X} } 1b8c6feeb921a6d81808b98802b5caee9ba103a3.svg_ 期望（若存在）的无偏估计（英语：Bias of an estimator），随机向量是一个列向量，其中第j个元素(j = 1, …, K)为第j个随机变量[1]。

样本均值因为是用所有的观测值计算而得，稍微和每次的观测值有关。若总体平均 E ⁡ ( X ) {\displaystyle \operatorname {E} (\mathbf {X} )} 68878c1cca1f91eb92457636b91f0807fca1b5e0.svg_ 已知，其无偏估计值

q j k = 1 N ∑ i = 1 N ( x i j − E ⁡ ( X j ) ) ( x i k − E ⁡ ( X k ) ) , {\displaystyle q_{jk}={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{ij}-\operatorname {E} (X_{j})\right)\left(x_{ik}-\operatorname {E} (X_{k})\right),} 1b61631fc8c84f2a264919355d79046664f5b49c.svg_

1b61631fc8c84f2a264919355d79046664f5b49c.svg_

用到总体平均，其分母为 N {\displaystyle \textstyle N} 。

样本均值的方差

本节中总假定出现的均值和方差都是存在的。对于每个随机变量，样本均值是总体平均的良好估计函数，其中的良好是指有效及无偏差。当然样本均值不会是统计总体真实均值的正确值，因为从同一个分布中不同的取様会产生不同的样本均值，也就对真实均值有不同的估计。因此样本均值也是随机变量，不是常数，因此也会有其分布随机变量。针对第j个随机变量N次观测的随机取様，其样本均值分布的均值会等于总体均值 E ( X j ) {\displaystyle E(X_{j})} ef180710714b2f68b87c6408ed8ee044c0590e92.svg_ ，而其方差会等于 σ j 2 N {\displaystyle {\frac {\sigma _{j}^{2}}{N}}} 3cf067769fee6195b01f62b2e6362ad3d618ee95.svg_ ，其中 σ j 2 {\displaystyle \sigma _{j}^{2}} 4b88aeadc2c7feec187eed15b827547aacc26a6a.svg_ 是随机变量Xj的方差。

样本均值广为使用在统计学及相关应用中，不过也有其缺点。样本均值不是稳健统计（英语：robust statistics），容易受异常点（英语：outliers）影响。在真实世界的应用中，一般会期望数据有稳健的性质，有其他方式可以计算类似样本均值的统计量，但又比样本均值要稳健，可以得到一些常见的量化统计量，例如様本众数和位置参数（英语：Location parameter）有关[2]。其他的替代品包括Winsorising（英语：Winsorising）及修整估计量（英语：Trimmed estimator），例如Winsorized平均（英语：Winsorized mean）及修整平均（英语：trimmed mean）。

参考资料

^ Richard Arnold Johnson; Dean W. Wichern. Applied Multivariate Statistical Analysis. Pearson Prentice Hall. 2007 [10 August 2012]. ISBN 978-0-13-187715-3. （原始内容存档于2020-10-30）. ^ The World Question Center 2006: The Sample Mean （页面存档备份，存于互联网档案馆）, Bart Kosko

样本均值

样本均值

目录

定义

样本均值的方差

评论

参考资料

发表回复取消回复

Featured News

De quattuor virtutibus caritatis (On the four virtues of charity)

Mailing lists

Press releases

Biographies (document genre)

Brief Bytes

1920 Windsor Locks High School Yearbook Windsor Locks CT

Photographs by Eadweard Muybridge.

Biographies (document genre)

1960 Windsor Locks High School Yearbook Windsor Locks CT

Snippet News

到期应收贷款

应付施工准备费

住房周转金

项目（工程）成本

应收贷款

到期应收贷款

应付施工准备费

住房周转金

项目（工程）成本

应收贷款

到期应收贷款

样本均值

目录

定义

样本均值的方差

评论

参考资料

Related Posts

发表回复 取消回复

发表回复取消回复