普通最小二乘法

普通最小二乘法

普通最小二乘法

在回归分析当中,最常用的估计 β {\displaystyle \beta } 7ed48a5e36207156fb792fa79d29925d2f7901e8.svg_(回归系数)的方法是普通最小二乘法(英语:ordinary least squares,简称OLS),它基于误差值之上。用这种方法估计 β {\displaystyle \beta } 7ed48a5e36207156fb792fa79d29925d2f7901e8.svg_,首先要计算残差平方和(residual sum of squares;RSS),RSS是指将所有误差值的平方加起来得出的数:

R S S = ∑ i = 1 n e i 2 {\displaystyle RSS=\sum _{i=1}^{n}e_{i}^{2}\,} 906768373f696bf4c8cd115e3ca8f7fad5ae3a46.svg_

β 0 {\displaystyle \beta _{0}} 40b42f71f244103a8fca3c76885c7580a92831c8.svg_ β 1 {\displaystyle \beta _{1}} eeeccd8b585b819e38f9c1fe5e9816a3ea01804c.svg_的数值可以用以下算式计算出来:

β ^ 1 = ∑ ( x i − x ¯ ) ( y i − y ¯ ) ∑ ( x i − x ¯ ) 2 {\displaystyle {\widehat {\beta }}_{1}={\frac {\sum (x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum (x_{i}-{\bar {x}})^{2}}}} 4b857f969364d14d8994d508dd23b572c89a5ae8.svg_

β ^ 0 = y ¯ − β ^ 1 x ¯ {\displaystyle {\widehat {\beta }}_{0}={\bar {y}}-{\widehat {\beta }}_{1}{\bar {x}}} 88747e5db7b0dd254b5ae0e381c52453d111b4f1.svg_

当中 x ¯ {\displaystyle {\bar {x}}} 466e03e1c9533b4dab1b9949dad393883f385d80.svg_ x {\displaystyle x} 87f9e315fd7e2ba406057a97300593c4802b53e4.svg_的平均值,而 y ¯ {\displaystyle {\bar {y}}} 6b298744237368f34e61ff7dc90b34016a7037af.svg_ y {\displaystyle y} b8a6208ec717213d4317e666f1ae872e00620a0d.svg_的平均值。

假设总体的误差值有一个固定的方差,这个方差可以用以下算式估计:

σ ^ ε 2 = R S S n − 2 . {\displaystyle {\hat {\sigma }}_{\varepsilon }^{2}={\frac {RSS}{n-2}}.\,} ea363136e9ed32fe349433f6591c52d3c5c9c708.svg_

这个数就是均方误差(mean square error),这个分母是样本大小减去模型要估计的参数的量。这个回归模型当中有两个未知的参数( β 0 {\displaystyle \beta _{0}} 40b42f71f244103a8fca3c76885c7580a92831c8.svg_ β 1 {\displaystyle \beta _{1}} eeeccd8b585b819e38f9c1fe5e9816a3ea01804c.svg_)。[1]

而这些参数估计的标准误差(standard error)为:

σ ^ β 1 = σ ^ ε 1 ∑ ( x i − x ¯ ) 2 {\displaystyle {\hat {\sigma }}_{\beta _{1}}={\hat {\sigma }}_{\varepsilon }{\sqrt {\frac {1}{\sum (x_{i}-{\bar {x}})^{2}}}}} cabfed544953f553c545ac54586721b8652d47e5.svg_

σ ^ β 0 = σ ^ ε 1 n + x ¯ 2 ∑ ( x i − x ¯ ) 2 = σ ^ β 1 ∑ x i 2 n {\displaystyle {\hat {\sigma }}_{\beta _{0}}={\hat {\sigma }}_{\varepsilon }{\sqrt {{\frac {1}{n}}+{\frac {{\bar {x}}^{2}}{\sum (x_{i}-{\bar {x}})^{2}}}}}={\hat {\sigma }}_{\beta _{1}}{\sqrt {\frac {\sum x_{i}^{2}}{n}}}} 0707721aa36bfc429d33de2d3deed791c3e437ec.svg_

有了上面这个模型,研究者手上就有会有 β 0 {\displaystyle \beta _{0}} 40b42f71f244103a8fca3c76885c7580a92831c8.svg_ β 1 {\displaystyle \beta _{1}} eeeccd8b585b819e38f9c1fe5e9816a3ea01804c.svg_的估计值,就可以用这个算式来预测 Y {\displaystyle Y} 961d67d6b454b4df2301ac571808a3538b3a6d3f.svg_-1的数值。

参见

最小均方误差 非线性最小二乘法

参考资料

^ Steel, R.G.D, and Torrie, J. H., Principles and Procedures of Statistics with Special Reference to the Biological Sciences., McGraw Hill, 1960, page 288.

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注