幽灵数据

幽灵数据（英语：Ghost data[1]），是指从数据科学、统计学角度处理我们一般看不见的数据，量子成像或幽灵成像，“暗物质”或“暗能量”及其在计算机视觉领域中的新发现，甚至还包括与文物资料、经历等相关的认知数据。

在量子场论的术语中，幽灵（英语：Ghost_(physics)）（ghost）、幽灵场（ghost field）或规范幽灵（gauge ghost）是规范场论中的非物理状态。在局部场超过多个物理自由度的情况下，必须使幽灵保持理论的不变性。在数据科学、统计学、计算机等术语中，幽灵数据包括为数字幽灵[2](digital ghost)[3], 虚拟数据（如仿真数据[4]、虚拟病人[5]）、缺失数据[6]、伪造数据[7]、高度稀疏数据，及其他类似数据。令人容易联想到的是缺失数据。由于缺失机制[8]（可忽略或不可忽略、随机缺失或非随机缺失等）的不同，处理方法也不尽相同。除了缺失数据，幽灵数据还包括其他看不见的数据。这些数据可能是因为部分人员能够感知而其他人不能感知的数据[1]。

概述

幽灵数据由John Sall和Dennis Lin教授率先在系列邀请报告[9][10][11][12]中阐述。幽灵数据广泛存在于各种历史记录的数据中，包括记录的日记、照片、录音、视频，甚至存储在化石和文物等[13]中的记忆信息。尽管这些文物仅记录部分表面特征，但是一部分人能感知其相关的更多的信息，而其他人不能感知到那些信息。能够感知更多信息的人就能构建部分并近似复制其整个生活过程。例如，在文物虚拟修复[13]方面，数据科学家与文物专家的合作，能够能更多地存储其记录，并还原它们所携带的记忆信息。随着技术的进步，将能为原始生活提供完美复制品。

数据类型

幽灵数据[1]常包括幽灵成像、虚拟数据、缺失数据、伪造数据、仿真数据、“暗物质”、高度稀疏数据，及其他类似数据。令人容易联想到的是缺失数据。由于缺失机制的不同，处理方法也不尽相同。数据缺失可以分为随机缺失(missing at random, MAR)和非随机缺失（Missing not at random, MNAR）[6]。缺失数据处理方法[8]主要包括使用样本抽样推断、贝叶斯推断和似然法推断等。对于实验设计，随机完全区块设计[14]也会遇到缺失问题。不完整均衡区块设计[14]也可被当成随机完全区块设计带有缺失数据进行统计分析。

参考文献

^ 1.0 1.1 1.2 [1]) ^ (德)尤夫娜·霍夫施泰特. 陈巍 , 编. 大数据之眼:无所不知的数字幽灵( SIE WISSEN ALLES). 浙江文艺. 2018. ISBN 9787533950880. 使用|accessdate=需要含有|url= (帮助) ^ Eric Steinhart. Survival as a Digital Ghost. Minds & Machines: 261–271. [2020-08-10]. （原始内容存档于2020-10-08）. ^ Kaitai Fang; Dennis J.K. Lin. Rao CR, Khattree R , 编. Uniform experimental design and its applications in industry. North Holland, Amsterdam. 2003. 引文使用过时参数coauthors (帮助) ^ 徐曼; 沈江, 余海燕. 大数据医疗:认知科学时代的医疗智能. 北京: 机械工业出版社. 2017. 引文使用过时参数coauthors (帮助) ^ 6.0 6.1 余海燕; 陈京京邱航王永王若凡. 嵌套删失数据期望最大化的高斯混合聚类算法. 自动化学报. 2019-08-12. 引文使用过时参数coauthors (帮助) ^ Hodges, Sarah; Garnett, Emma. The ghost in the data: Evidence gaps and the problem of fake drugs in global health research. Global Public Health. 2020: 1103–1118 [2020-08-10]. （原始内容存档于2022-04-13）. 引文使用过时参数coauthors (帮助) ^ 8.0 8.1 Roderick JA Little; Donald B Rubin. Statistical analysis with missing data. John Wiley & Sons. 2019 [2020-08-11]. （原始内容存档于2020-09-16）. 引文使用过时参数coauthors (帮助) ^ uwaterloo.ca. Statistics and Actuarial ScienceEvents2018November. https://uwaterloo.ca/. [2018-11-08]. （原始内容存档于2020-11-24）. ^ Dennis Lin. Ghost Data. https://math.asu.edu/. [2019-11-07]. ^ 余海燕. Dennis K.J. Lin教授后大数据Ghost Data研究的学术报告. 重庆邮电大学经济管理学院. [2018-07-17]. （原始内容存档于2019年7月23日）. ^ bc.njupt.edu.cn/. “Ghost Data（幽灵数据）”的讲座圆满举行. 南京邮电大学管理学院. [2019-05-28]. ^ 13.0 13.1 Grau, Oliver. Museum and archive on the move: changing cultural institutions in the digital era.. Walter de Gruyter GmbH & Co KG. 2017 [2020-08-10]. （原始内容存档于2016-01-05）. ^ 14.0 14.1 George E. P. Box, J. Stuart Hunter, William G. Hunter. Statistics for Experimenters: Design, Innovation, and Discovery. wiley. 2005 [2020-08-11]. ISBN 978-0-471-71813-0. （原始内容存档于2019-04-13）.

幽灵数据

幽灵数据

目录

概述

数据类型

相关条目

参考文献

发表回复取消回复

Featured News

De quattuor virtutibus caritatis (On the four virtues of charity)

Mailing lists

Press releases

Biographies (document genre)

Brief Bytes

1920 Windsor Locks High School Yearbook Windsor Locks CT

Photographs by Eadweard Muybridge.

Biographies (document genre)

1960 Windsor Locks High School Yearbook Windsor Locks CT

Snippet News

到期应收贷款

应付施工准备费

住房周转金

项目（工程）成本

应收贷款

到期应收贷款

应付施工准备费

住房周转金

项目（工程）成本

应收贷款

到期应收贷款

幽灵数据

目录

概述

数据类型

相关条目

参考文献

Related Posts

发表回复 取消回复

发表回复取消回复