方差

在概率论和统计学中,方差(英语:variance)又称变异数、变方,描述的是一个随机变量的离散程度,即一组数字与其平均值之间的距离的度量,是随机变量与其总体均值或样本均值的离差的平方的期望值。方差在统计中有非常核心的地位,其应用领域包括描述统计学、推论统计学、假设检验、度量拟合优度(英语:goodness of fit),以及蒙特卡洛采样。由于科学分析经常涉及统计,方差也是重要的科研工具。方差是标准差的平方、分布的二阶矩,以及随机变量与其自身的协方差,其常用的符号表示有
σ
2
{\displaystyle \sigma ^{2}}
、
s
2
{\displaystyle s^{2}}
、
Var
(
X
)
{\displaystyle \operatorname {Var} (X)}
、
V
(
X
)
{\displaystyle V(X)}
,以及
V
(
X
)
{\displaystyle \mathbb {V} (X)}
。[1]
方差作为离散度量的优点是,它比其他离散度量(如平均差)更易于代数运算;例如,一组不相关的随机变量和的方差等于它们方差的和。在实际应用中,方差的一个缺点是它与随机变量的单位不同,而标准差则单位相同,这就是计算完成后通常采用标准差来衡量离散程度的原因。
有两个不同的概念都被称为“方差”。一种如上所述,是理论概率分布的方差。而另一种方差是一组观测值的特征。观测值通常是从真实世界的系统中测量的。如果给出系统的所有可能的观测,则它们算出的方差称为总体方差;然而,一般情况下我们只使用总体的一个子集(样本),由此计算出的方差称为样本方差。用样本计算出的方差可认为是对整个总体的方差的估计量。
方差的正平方根称为该随机变量的标准差;方差除以期望值归一化的值叫分散指数;标准差除以平均值归一化的值叫变异系数。
目录
定义
设X为服从分布F的随机变量,如果E[X]是随机变量X的期望值(均值μ=E[X]),则随机变量X或者分布F的方差为X的离差平方的期望值:
Var ( X ) = E [ ( X − μ ) 2 ] {\displaystyle \operatorname {Var} (X)=\operatorname {E} \left[(X-\mu )^{2}\right]}
这个定义涵盖了连续、离散,或两者皆非的随机变量。方差亦可视作随机变量与自身的协方差:
Var ( X ) = Cov ( X , X ) {\displaystyle \operatorname {Var} (X)=\operatorname {Cov} (X,X)}
方差也等价于生成X的概率分布的二阶累积量。方差的常用的表达有
Var
(
X
)
{\displaystyle \operatorname {Var} (X)}
,有时作
V
(
X
)
{\displaystyle V(X)}
或
V
(
X
)
{\displaystyle \mathbb {V} (X)}
,也可写作符号
σ
X
2
{\displaystyle \sigma _{X}^{2}}
或
σ
2
{\displaystyle \sigma ^{2}}
(读作“sigma方”)。方差的表达式可展开如下:

也就是说,X的方差等于X平方的均值减去X均值的平方。该等式不应该用于浮点运算,因为如果等式的两个成分大小相似,将会造成灾难性抵消。
离散随机变量
如果随机变量X是具有概率质量函数的离散随机分布x1 ↦ p1, …, xn ↦ pn,则:
Var ( X ) = ∑ i = 1 n p i ⋅ ( x i − μ ) 2 = ∑ i = 1 n ( p i ⋅ x i 2 ) − μ 2 {\displaystyle \operatorname {Var} (X)=\sum _{i=1}^{n}p_{i}\cdot (x_{i}-\mu )^{2}=\sum _{i=1}^{n}(p_{i}\cdot x_{i}^{2})-\mu ^{2}}
此处 μ {\displaystyle \mu } 是其期望值,即:
μ = ∑ i = 1 n p i ⋅ x i {\displaystyle \mu =\sum _{i=1}^{n}p_{i}\cdot x_{i}}
当X为有n个相等概率值的平均分布:
Var ( X ) = σ 2 = 1 n ∑ i = 1 n ( x i − μ ) 2 = 1 n ( ∑ i = 1 n x i 2 − n μ 2 ) = ∑ i = 1 n x i 2 n − μ 2 {\displaystyle \operatorname {Var} (X)=\sigma ^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}={\frac {1}{n}}\left(\sum _{i=1}^{n}x_{i}^{2}-n\mu ^{2}\right)={\frac {\sum _{i=1}^{n}x_{i}^{2}}{n}}-\mu ^{2}}
n个相等概率值的方差亦可以点对点间的方变量表示为:
Var ( X ) = 1 n 2 ∑ i = 1 n ∑ j = 1 n 1 2 ( x i − x j ) 2 {\displaystyle \operatorname {Var} (X)={\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}{\frac {1}{2}}(x_{i}-x_{j})^{2}}
连续型随机变量
如果随机变量X是连续分布,概率密度函数为f(x),相应的累积分布函数为F(x),则其方差为:
Var ( X ) = σ 2 = ∫ R ( x − μ ) 2 f ( x ) d x = ∫ R x 2 f ( x ) d x − 2 μ ∫ R x f ( x ) d x + μ 2 ∫ R f ( x ) d x = ∫ R x 2 d F ( x ) − 2 μ ∫ R x d F ( x ) + μ 2 ∫ R d F ( x ) = ∫ R x 2 d F ( x ) − 2 μ ⋅ μ + μ 2 ⋅ 1 = ∫ R x 2 d F ( x ) − μ 2 , {\displaystyle {\begin{aligned}\operatorname {Var} (X)=\sigma ^{2}&=\int _{\mathbb {R} }(x-\mu )^{2}f(x)\,dx\\[4pt]&=\int _{\mathbb {R} }x^{2}f(x)\,dx-2\mu \int _{\mathbb {R} }xf(x)\,dx+\mu ^{2}\int _{\mathbb {R} }f(x)\,dx\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-2\mu \int _{\mathbb {R} }x\,dF(x)+\mu ^{2}\int _{\mathbb {R} }\,dF(x)\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-2\mu \cdot \mu +\mu ^{2}\cdot 1\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-\mu ^{2},\end{aligned}}}
或等价地:
Var ( X ) = ∫ R x 2 f ( x ) d x − μ 2 , {\displaystyle \operatorname {Var} (X)=\int _{\mathbb {R} }x^{2}f(x)\,dx-\mu ^{2},}
其中
μ
{\displaystyle \mu }
为
X
{\displaystyle X}
的期望值,其计算方法如下:

这些公式中,
d
x
{\displaystyle dx}
和
d
F
(
x
)
{\displaystyle dF(x)}
的积分分别为勒贝格积分和勒贝格-斯蒂尔吉斯积分(英语:Lebesgue–Stieltjes integration)。
若函数
x
2
f
(
x
)
{\displaystyle x^{2}f(x)}
在每个有限区间
[
a
,
b
]
⊂
R
{\displaystyle [a,b]\subset \mathbb {R} }
都是黎曼可积的,则:
该积分为非正常黎曼积分。
常见概率分布
下表列出了一些常用概率分布的方差。
概率分布类型 概率分布函数 均值 方差 二项式分布 Pr ( X = k ) = ( n k ) p k ( 1 − p ) n − k {\displaystyle \Pr \,(X=k)={\binom {n}{k}}p^{k}(1-p)^{n-k}}













特性
方差不会是负的,因为平方运算结果为非负数:
Var ( X ) ≥ 0 {\displaystyle \operatorname {Var} (X)\geq 0}
一个常数随机变量的方差为零。反之,若有限个数组成的资料集方差为零,则其内所有数皆相等。对于一般随机变量,也有类似结论,即方差为零推出该变量几乎总是取同一个值:
P ( X = a ) = 1 ⇔ Var ( X ) = 0 {\displaystyle P(X=a)=1\Leftrightarrow \operatorname {Var} (X)=0}
方差不变于定位参数的变动。也就是说,如果一个常数被加至一个数列中的所有变量值,此数列的方差不会改变:
Var ( X + a ) = Var ( X ) . {\displaystyle \operatorname {Var} (X+a)=\operatorname {Var} (X).}如果所有数值被放大一个常数倍,方差会放大此常数的平方倍:
Var ( a X ) = a 2 Var ( X ) {\displaystyle \operatorname {Var} (aX)=a^{2}\operatorname {Var} (X)}两个随机变量合的方差为:
Var ( a X + b Y ) = a 2 Var ( X ) + b 2 Var ( Y ) + 2 a b Cov ( X , Y ) , {\displaystyle \operatorname {Var} (aX+bY)=a^{2}\operatorname {Var} (X)+b^{2}\operatorname {Var} (Y)+2ab\,\operatorname {Cov} (X,Y),} Var ( X − Y ) = Var ( X ) + Var ( Y ) − 2 Cov ( X , Y ) , {\displaystyle \operatorname {Var} (X-Y)=\operatorname {Var} (X)+\operatorname {Var} (Y)-2\,\operatorname {Cov} (X,Y),}此处Cov(X, Y)代表协方差。
对于 N {\displaystyle N} 个随机变量 { X 1 , … , X N } {\displaystyle \{X_{1},\dots ,X_{N}\}} 的总和:
Var ( ∑ i = 1 N X i ) = ∑ i , j = 1 N Cov ( X i , X j ) = ∑ i = 1 N Var ( X i ) + ∑ i ≠ j Cov ( X i , X j ) {\displaystyle \operatorname {Var} \left(\sum _{i=1}^{N}X_{i}\right)=\sum _{i,j=1}^{N}\operatorname {Cov} (X_{i},X_{j})=\sum _{i=1}^{N}\operatorname {Var} (X_{i})+\sum _{i\neq j}\operatorname {Cov} (X_{i},X_{j})}在样本空间Ω上存在有限期望和方差的随机变量构成一个希尔伯特空间:L2 (Ω, dP),不过这里的内积和长度跟协方差,标准差还是不大一样。所以,我们得把这个空间“除”常变量构成的子空间,也就是说把相差一个常数的所有原来那个空间的随机变量做成一个等价类。这还是一个新的无穷维线性空间,并且有一个从旧空间内积诱导出来的新内积,而这个内积就是协方差。
总体方差和样本方差
总体方差
一般而言,一个有限的容量为N、元素的值为xi的总体的总体方差为:
σ 2 = 1 N ∑ i = 1 N ( x i − μ ) 2 = 1 N ∑ i = 1 N ( x i 2 − 2 μ x i + μ 2 ) = ( 1 N ∑ i = 1 N x i 2 ) − 2 μ ( 1 N ∑ i = 1 N x i ) + μ 2 = ( 1 N ∑ i = 1 N x i 2 ) − μ 2 {\displaystyle {\begin{aligned}\sigma ^{2}&={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{i}-\mu \right)^{2}={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{i}^{2}-2\mu x_{i}+\mu ^{2}\right)\\[5pt]&=\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}^{2}\right)-2\mu \left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}\right)+\mu ^{2}\\[5pt]&=\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}^{2}\right)-\mu ^{2}\end{aligned}}}其中总体均值为:
μ = 1 N ∑ i = 1 N x i . {\displaystyle \mu ={\frac {1}{N}}\sum _{i=1}^{N}x_{i}.}总体方差也可用下式计算:
: s 2 = n n − 1 σ Y 2 = n n − 1 [ 1 n ∑ i = 1 n ( Y i − Y ¯ ) 2 ] = 1 n − 1 ∑ i = 1 n ( Y i − Y ¯ ) 2 {\displaystyle s^{2}={\frac {n}{n-1}}\sigma _{Y}^{2}={\frac {n}{n-1}}\left[{\frac {1}{n}}\sum _{i=1}^{n}\left(Y_{i}-{\overline {Y}}\right)^{2}\right]={\frac {1}{n-1}}\sum _{i=1}^{n}\left(Y_{i}-{\overline {Y}}\right)^{2}}当语境明确时,两个估计量都可以简称为“样本方差”。同样的证明也适用于取自连续概率分布的样本。
其中,对n − 1的使用称为贝塞尔校正(英语:Bessels correction),它也用于样本协方差(英语:sample covariance)和样本标准差(方差的平方根)。平方根是一个凹函数,因此会引入负偏差(根据简森不等式),具体取决于分布,因此校正的样本标准差(使用贝塞尔校正)是有偏的。标准差的无偏估计(英语:unbiased estimation of standard deviation)是一个技术上复杂的问题,不过对于正态分布,使用n – 1.5能得到几乎无偏的估计值。
无偏样本方差是函数ƒ(y1, y2) = (y1 − y2)2/2的U-统计量。
一般化
如果X是一个向量其取值范围在实数空间Rn,并且其每个元素都是一个一维随机变量,我们就把X称为随机向量。随机向量的方差是一维随机变量方差的自然推广,其定义为E[(X − μ)(X − μ)T],其中μ = E(X),XT是X的转置。这个方差是一个非负定的方阵,通常称为协方差矩阵。
如果X是一个复数随机变量的向量(向量中每个元素均为复数的随机变量),那么其方差定义则为E[(X − μ)(X − μ)*],其中X*是X的共轭转置向量或称为埃尔米特向量。根据这个定义,方差为实数。
历史
“方差”(variance)这个名词率先由罗纳德·费希尔(英语:Ronald Fisher)在论文《The Correlation between Relatives on the Supposition of Mendelian Inheritance》[4]中提出。
后来方差逐渐衍生出了“半方差”(semivariance)、“亚方差”(hypo variance)、“超方差”(super variance)、“圆方差(英语:circular variance)”(circular variance)与“倒方差”(inverse variance)等概念。
半方差
半方差的计算方式与方差类似,但是只包括了低于均值的观测值: