离散程度

离散程度

离散程度

本条目存在以下问题,请协助改善本条目或在讨论页针对议题发表看法。
此条目需要精通或熟悉相关主题的编者参与及协助编辑。请邀请适合的人士改善本条目。更多的细节与详情请参见讨论页此条目需要补充更多来源。 (2019年12月10日)请协助补充多方面可靠来源以改善这篇条目

,无法查证的内容可能会因为异议提出而移除。

致使用者:请搜索一下条目的标题(来源搜索:“离散程度”网页新闻书籍学术图像),以检查网络上是否存在该主题的更多可靠来源(判定指引)。

在统计学里,离散程度(英语:statistical dispersion,scatter,spread)或离散度,又称统计变异性(statistical variability)[1],简称 变异、变差(variation)、变率,是指一个分布随机变量的拉伸或压缩程度[2]习惯上,“离散”常用来描述数据分布[3],而“变异”(指:变异数、方差)更常用来描述随机变量的变异程度[4][需要解释]用以描述离散程度或变异的量主要有方差、标准差、变异系数和四分位距等。

离散程度与集中趋势相对,因此,离散度就是指各个变量值与集中趋势的偏离程度。

衡量

衡量离散程度的值,通常是非负实数:当衡量值取零时,表示分布集中在同一个值上;随着衡量值的增加,随机变量的取值越来越分散。

部分描述离散程度的量是带单位的,并且,这些量的单位与随机变量本身的单位相同。也就是说,如果随机变量的单位是米或秒,则这些量的单位也是米或秒。这些量举例如下:

标准差 四分位距 全距 平均绝对偏差英语Mean_absolute_difference 绝对差中位数英语Median_absolute_deviation 平均差 间隔关系英语Distance_correlation

此外,也有一些无量纲量

变异系数 四分位离散系数英语Quartile_coefficient_of_dispersion 基尼系数

另外,还有一些带单位的量,但是他们的单位和随机变量本身的单位不同:

方差 离散指数英语Index_of_dispersion

可解释性

变差的可解释性,通常是对于一个随机变量而言的。当观测到随机变量的一些取值(例如训练集中的标签可视作是一个随机变量的一些观测值),需要推断随机变量服从的分布时,就会遇到这个问题。一般而言,推断有限观测值的随机变量服从的分布的过程,即是建立模型的过程。

假设有随机变量 X {\displaystyle \mathbf {X} } 9f75966a2f9d5672136fa9401ee1e75008f95ffd.svg_及其服从的真实分布 X ∼ D {\displaystyle \mathbf {X} \sim D} de4a68c4e5bc113365bd9f8b50b625c2e49ba294.svg_。则对于该随机变量的观测值,可计算其变差(以方差表示) SS total := Var ( X ) {\displaystyle {\text{SS}}_{\text{total}}:={\text{Var}}(\mathbf {X} )} b74c9d187a09212e39bd7afbd08a489d2d1e12ce.svg_;对于分布,亦可计算其变差 SS distribution := Var ( D ) {\displaystyle {\text{SS}}_{\text{distribution}}:={\text{Var}}(D)} aeae1906035e3333720f229900e731d0fa9a18b2.svg_。则 SS distribution {\displaystyle {\text{SS}}_{\text{distribution}}} bbb2db702821dcc100475be12168f609466a24ca.svg_-1是相对该随机变量的可解释变异(英语:explainable variation),其余的部分则是不可解释变异(英语:unexplainable variation)。为了衡量不可解释变异,可引入不可解释变异分数(英语:fraction of unexplainable variation) FUV := 1 − SS distribution SS total {\displaystyle {\text{FUV}}:=1-{\tfrac {{\text{SS}}_{\text{distribution}}}{{\text{SS}}_{\text{total}}}}} 7fc82bdf066e3ce1ddddb90b742558288a344009.svg_。不可解释变异亦称为统计噪声

假设 D ′ {\displaystyle D} 3c3bf8caca74bc346fa19acded4fc1a79e3ec114.svg_是模型给出的随机变量的分布。则对于该预测分布,我们可以计算器变异(以方差表示) SS model := Var ( D ′ ) {\displaystyle {\text{SS}}_{\text{model}}:={\text{Var}}(D)} 631887fe1525fb458fc9ccdf61944f6598abc8e3.svg_。则 SS model {\displaystyle {\text{SS}}_{\text{model}}} e50ae412cb2d08536d15a189fb8e3678b8249810.svg_是该模型相对该随机变量的已解释变异(英语:explained variation),其余部分则是未解释变异(英语:unexplained variation)。同样,为了衡量未解释变异,可引入未解释变异分数(英语:fraction of unexplained variation) FUV := 1 − SS model SS total {\displaystyle {\text{FUV}}:=1-{\tfrac {{\text{SS}}_{\text{model}}}{{\text{SS}}_{\text{total}}}}} 129eeebd3f4c93e2e68a361b4d38985ad666b47e.svg_

参考资料

^ 贺睿杰. 统计活动视角下的高中生统计学习研究[D]. 华东师范大学, 2020. ^ NIST/SEMATECH e-Handbook of Statistical Methods. 1.3.6.4. Location and Scale Parameters. www.itl.nist.gov. U.S. Department of Commerce. [2022-11-14]. (原始内容存档于2022-11-14). ^ 米小琴. 统计计算与分析. 清华大学出版社有限公司. 2004: 68–75. ISBN 9787302064343. ^ 安德森. 王峰 , 编. 商务与经济统计. 中信出版社. 2003: 202. ISBN 9787800738753.

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注