虫虫首页| 资源下载| 资源专辑| 精品软件
登录| 注册

您现在的位置是:首页 > 技术阅读 >  为了在事件中更好地预测,我们需要更好的数据

为了在事件中更好地预测,我们需要更好的数据

时间:2024-02-01

●●●

回想美国总统大选和英国脱欧公投,其投票结果令很多人感到惊讶。在这两个事件里,投票结果都引发了这样的叹息:“如今是大数据时代,民意调查专家和权威人士的预测怎么会错得如此离谱?”

●我的专长只在语言方面,因此我不必假装找到了答案,不过无论样本量只有数千的民意调查算不算“大数据”,这个问题无疑都是没有确切答案的——要是以中等数据(mediumdata)的名义进行调查,投票的统计数据可能会更少。或许这就是问题所在:如果预选和预投分析能够访问数百万数据点,结果可能就不会让人感到那么意外?或者,需要的也许不是大数据本身,而是一种能够利用诸多新型可用数据的方法。

●例如,快数据(fastdata)需要实现近似于瞬间的存取、分析,或是其他需要在非常短的时间内进行的操作。它是热数据(hotdata)的一种,需要不断被使用,因此必须能够被轻而易举地迅速获取。与之相对的是慢数据(slowdata),它经过相对长时间的积累,意味着在某一时刻可能会成为长数据(longdata),可追溯至数百年之前。慢数据是冷数据(cold data)的一种,冷数据的使用频率相对较低,因此可以无须被迅速存取。无论快还是慢,热还是冷,如果是不完整、不一致或完全错误的脏数据(dirtydata),那么它对任何人来说都没有多大用处。

●与不可见但在宇宙中占了相当大比重的暗物质类似,暗数据(darkdata)代表着大部分企业收集和存储的不可见但占据了相当大比重的数据。暗数据之所以“暗”,是因为企业并不用它来分析、洞悉或制定决策。它的一部分是未使用的传感器数据或暂存网络路由信息等瞬态数据(transientdata),以及用户(不断变化的)GPS坐标等实时数据(livedata)。这些数据偶尔也能产生闪现洞见(perishable insights):存储期限非常短暂的有价值数据(比如你发现顾客信步走过你的实体店铺时产生的便是这种数据)。与之相对的是目标丰富型数据(target-richdata),这类数据被标记、处理和分析时,会给其所有者提供有价值的长期洞见。

●●●

或许有一种方式可以综合整体和局部,即以某种方式将大数据和我们对大数据的贡献——产生自我们日常行为的小数据(smalldata)——结合在一起。我们将不得不经历一些危险。例如,我们将需要保证我们的数据不会变成立方体数据(cubeddata),否则第三方之间会共享我们的数据,那样就无法预料数据的最终结果及其将如何被使用和理解了。我们将需要一些保障措施来保证第三方践行可靠数据(responsibledata),即保密并人道地使用和共享数据。

更有前途的大概是利用厚数据(thickdata)的方法,厚数据结合了定量与定性分析。权威人士可以从叙事医学(narrativemedicine)中得到提示,叙事医学将病人病情的发展过程与传统的医疗实践相结合,将其作为理解、诊断和治疗疾病的方法。权威人士可以不再猜测人的行为(例如美国农村选民可能在选举日根本没出门投票,在民意测验中选择“弃权”的人反而可能出现在投票站);他们可以直接与人们对话,倾听他们的故事,而不仅仅是看着一行行的数字。就把它称为“叙事数据”(narrativedata)吧。

作者:Paul McFedries

往期推荐

数据包保护专家

新型“野外技术”—用数据打击偷猎

PixelGrid一体化测图系统:高效能遥感数据处理引擎