样本均值
样本均值是由一个或多个随机变量中得到的统计量,样本均值是一个向量,其中的每个元素都是针对随机变量取様后得到的算术平均数。若只考虑一个随机变量,则样本均值为一个标量,是随机变量观测值的算术平均。
定义
令
x
i
j
{\displaystyle x_{ij}}
为第j个随机变量(j=1,…,K)在第i次观测(i=1,…,N)到的值,所有观测值可以重组为N个K ×1的向量,其中第i次观测的所有数据用
x
i
{\displaystyle \mathbf {x} _{i}}
表示(i=1,…,N)。
算术平均向量
x
¯
{\displaystyle \mathbf {\bar {x}} }
的第j个元素
x
¯
j
{\displaystyle {\bar {x}}_{j}}
是第j个随机变量在N次观测值的平均值:

因此算术平均向量包括所有随机变量的平均值,可以用以下方式表示:
x ¯ = 1 N ∑ i = 1 N x i . {\displaystyle \mathbf {\bar {x}} ={\frac {1}{N}}\sum _{i=1}^{N}\mathbf {x} _{i}.}样本均值是随机向量(英语:Multivariate random variable)
X
{\displaystyle \textstyle \mathbf {X} }
期望(若存在)的无偏估计(英语:Bias of an estimator),随机向量是一个列向量,其中第j个元素(j = 1, …, K)为第j个随机变量[1]。
样本均值因为是用所有的观测值计算而得,稍微和每次的观测值有关。若总体平均
E
(
X
)
{\displaystyle \operatorname {E} (\mathbf {X} )}
已知,其无偏估计值

用到总体平均,其分母为 N {\displaystyle \textstyle N} 。
样本均值的方差
本节中总假定出现的均值和方差都是存在的。对于每个随机变量,样本均值是总体平均的良好估计函数,其中的良好是指有效及无偏差。当然样本均值不会是统计总体真实均值的正确值,因为从同一个分布中不同的取様会产生不同的样本均值,也就对真实均值有不同的估计。因此样本均值也是随机变量,不是常数,因此也会有其分布随机变量。针对第j个随机变量N次观测的随机取様,其样本均值分布的均值会等于总体均值
E
(
X
j
)
{\displaystyle E(X_{j})}
,而其方差会等于
σ
j
2
N
{\displaystyle {\frac {\sigma _{j}^{2}}{N}}}
,其中
σ
j
2
{\displaystyle \sigma _{j}^{2}}
是随机变量Xj的方差。
评论
样本均值广为使用在统计学及相关应用中,不过也有其缺点。样本均值不是稳健统计(英语:robust statistics),容易受异常点(英语:outliers)影响。在真实世界的应用中,一般会期望数据有稳健的性质,有其他方式可以计算类似样本均值的统计量,但又比样本均值要稳健,可以得到一些常见的量化统计量,例如様本众数和位置参数(英语:Location parameter)有关[2]。其他的替代品包括Winsorising(英语:Winsorising)及修整估计量(英语:Trimmed estimator),例如Winsorized平均(英语:Winsorized mean)及修整平均(英语:trimmed mean)。