幽灵数据
幽灵数据(英语:Ghost data[1]), 是指从数据科学、统计学角度处理我们一般看不见的数据,量子成像或幽灵成像,“暗物质”或“暗能量”及其在计算机视觉领域中的新发现,甚至还包括与文物资料、经历等相关的认知数据。
在量子场论的术语中,幽灵(英语:Ghost_(physics))(ghost)、幽灵场(ghost field)或规范幽灵(gauge ghost)是规范场论中的非物理状态。在局部场超过多个物理自由度的情况下,必须使幽灵保持理论的不变性。在数据科学、统计学、计算机等术语中,幽灵数据包括为数字幽灵[2](digital ghost)[3], 虚拟数据(如仿真数据[4]、虚拟病人[5])、缺失数据[6]、伪造数据[7]、高度稀疏数据,及其他类似数据。令人容易联想到的是缺失数据。由于缺失机制[8](可忽略或不可忽略、随机缺失或非随机缺失等)的不同,处理方法也不尽相同。除了缺失数据,幽灵数据还包括其他看不见的数据。这些数据可能是因为部分人员能够感知而其他人不能感知的数据[1]。
概述
幽灵数据由John Sall和Dennis Lin教授率先在系列邀请报告[9][10][11][12]中阐述。幽灵数据广泛存在于各种历史记录的数据中,包括记录的日记、照片、录音、视频,甚至存储在化石和文物等[13]中的记忆信息。尽管这些文物仅记录部分表面特征,但是一部分人能感知其相关的更多的信息,而其他人不能感知到那些信息。能够感知更多信息的人就能构建部分并近似复制其整个生活过程。例如,在文物虚拟修复[13]方面,数据科学家与文物专家的合作,能够能更多地存储其记录,并还原它们所携带的记忆信息。随着技术的进步,将能为原始生活提供完美复制品。
数据类型
幽灵数据[1]常包括幽灵成像、虚拟数据、缺失数据、伪造数据、仿真数据、“暗物质”、高度稀疏数据,及其他类似数据。令人容易联想到的是缺失数据。由于缺失机制的不同,处理方法也不尽相同。数据缺失可以分为随机缺失(missing at random, MAR)和非随机缺失(Missing not at random, MNAR)[6]。缺失数据处理方法[8]主要包括使用样本抽样推断、贝叶斯推断和似然法推断等。对于实验设计,随机完全区块设计[14]也会遇到缺失问题。不完整均衡区块设计[14]也可被当成随机完全区块设计带有缺失数据进行统计分析。