大数据和乔布斯的癌症治疗,不是随机样本,而是整个数据
大数据时代的采样就像在汽车时代骑马,数据处理发生了翻天覆地的变化。一切都变了。我们需要的是所有的数据,"sample=population"
苹果公司传奇CEO史蒂夫·乔布斯在与癌症的斗争中采取了不同的方法,成为世界上第一个对自己和肿瘤的DNA进行测序的人。他付了数十万美元,比我23岁时的出价高出数百倍。因此,他得到的不是一堆标记的样本,而是包含整个遗传密码的数据文档。
对于一个普通癌症患者,医生只能希望她的DNA排列与试验中使用的样本足够相似。但史蒂夫·乔布斯的医生能够根据他的特定基因构成,根据需要有效地给他用药。如果癌症导致药物失效,医生可以及时改用另一种药物,乔布斯将其描述为“从一片荷叶跳到另一片荷叶”。
“我要么是第一个以这种方式战胜癌症的人,要么是最后一个以这种方式死于癌症的人,”乔布斯开玩笑说。虽然他的愿望都没有实现,但是这种获取所有数据的方法,不仅仅是样本,将他的寿命延长了几年。
全数据模式,sample=总体
在信息处理能力有限的时代,世界需要数据分析,但缺乏分析收集数据的工具。因此,随机抽样应运而生,也可以说是那个时代的产物。今天,计算和制表不像以前那么困难了。传感器、手机导航、网站点击和Twitter被动地收集大量数据,而计算机可以轻松处理这些数据。
抽样的目的是用最少的数据获得最多的信息。当我们可以访问大量的数据时,这没有多大意义。数据处理发生了巨大的变化,但我们的方法和思维却没有跟上。
抽样总是有一个我们承认但避免的缺陷,而这一点正变得越来越难以忽视。抽样忽略了细节。虽然我们别无选择,只能使用抽样分析,但在许多领域,已经发生了从收集部分数据到收集尽可能多的数据的转变。如有可能,我们会收集所有资料,即“示例=人口”。
正如我们所看到的,“sample=population”意味着我们可以对数据进行深入的探索,而采样很难做到这一点。上述抽样实例证明,采用抽样方法对整个种群进行分析的准确率可达97%。对于某些情况,3%的错误率是可以接受的。
但你无法获得微观细节,甚至可能失去进一步研究某些子类别的能力。我们不能满足于一般平凡场景的正态分布。生活中真正有趣的事情往往隐藏在采样无法捕捉到的细节中。
谷歌流感趋势预测并不依赖于对随机样本的分析,而是对全美数十亿次互联网搜索的分析。分析整个数据库,而不是一个小样本,可以提高微观水平分析的准确性,甚至可以预测特定城市的流感状况,而不仅仅是一个州或国家。
Farecast的初始系统使用了12,000个样本,所以预测结果很好。随着奥伦·埃齐奥尼(orenetzioni)补充更多数据,预测变得更加准确。最后,Farecast为每条线路使用了全年的价格数据。“这只是一个快照,”etzioni说。“当你收集的数据越多,你就会变得越准确。”
因此,我们往往放弃样本分析的捷径,选择收集全面、完整的数据。我们需要足够的数据处理和存储能力,以及最先进的分析技术。简单和廉价的数据收集方法也很重要。在过去,这些问题中的任何一个都是棘手的。在资源有限的时代,解决这些问题代价高昂。但是现在,解决这些问题变得容易多了。大多数公司都能做到只有大公司才能做到的事情。
通过使用所有的数据,我们可以发现一些情况,否则会被大量的数据淹没。例如,信用卡欺诈是通过观察异常现象来识别的,而异常现象是可以被识别的