首页 >> 环球学讯 >> 头条
大数据思维尚未形成
2014年07月25日 10:00 来源:和讯网 作者:Tim Harford 字号

内容摘要:5年前,谷歌的一个研究团队在著名科学期刊《自然》上发布了一项令人瞩目的研究成果:不需要任何医疗检验结果,该小组能够追踪到当时扩散在全美的流感趋势,而且追踪速度比美国疾病控制中心(CDC)要快得多。谷歌的追踪只比流感爆发晚了一天,而CDC却花了一周甚至更多的时间来汇总一张流感传播趋势图。显然谷歌的速度更快,因为它通过寻找“在线搜索”和搜索“人是否患有流感”二者之间的相关性和规律,成功追踪到流感传播的趋势。在谷歌的模型数据中显示将有一场严重的流感爆发,但当疾病防治中心最终将漫无边际但依旧准确可靠的数据送达时,这些数据表明谷歌对流感疾病传播情况的预测夸大了近两倍。

关键词:谷歌;样本;取样;流感趋势;需要;手机;搜索;传播;分析;民意测验

作者简介:

  5年前,谷歌的一个研究团队在著名科学期刊《自然》上发布了一项令人瞩目的研究成果:不需要任何医疗检验结果,该小组能够追踪到当时扩散在全美的流感趋势,而且追踪速度比美国疾病控制中心(CDC)要快得多。谷歌的追踪只比流感爆发晚了一天,而CDC却花了一周甚至更多的时间来汇总一张流感传播趋势图。显然谷歌的速度更快,因为它通过寻找“在线搜索”和搜索“人是否患有流感”二者之间的相关性和规律,成功追踪到流感传播的趋势。

  谷歌流感趋势不仅快速、准确、成本低,而且不需要任何理论支持。谷歌的工程师没心思开发一套假设理论研究什么样的词条可能和疾病有关,而是挑出5000万条最靠前的词条,让搜索法则自行运算,得出结果。由此,谷歌流感趋势成为商业界、技术界、科学界具有代表意义的“大数据”成功案例。

  正如许多流行语一样,“大数据”是一个含糊不明确的词语,经常被人们信手拈来又随手抛去。有人会特别提到数据组的规模,例如Large Hadron Collider的电脑,一年能够储存15 千兆字节,相当于音乐播放1500年留下的数据。实际上,吸引了众多公司注意力的“大数据”可以被称作“寻获的数据”,其发生在网络搜索、信用卡支付、手机感应到最近的电话信号平台。比如谷歌流感趋势就是建立在已经被寻获的数据上的,这样的数据组可以更庞大。值得注意的是,相对于庞大的规模,数据的收集实际上很便宜。现代社会随着人们的沟通、休闲和商务活动都转移到网络(包括移动网络),生活在以一种十年前难以想象的方式,被记录和被量化。数据点的随意拼贴,收集起来用于不同的目的,同时可以实时更新。

  如何捕捉大数据

  大数据的拥护者们总结出了四个结论,而每一条都存在于“谷歌流感趋势”的成功案例中:1. 数据分析产生了惊人的准确结果;2. 每一个数据点都可以被捕捉,这使得过去的统计抽样技术显得十分过时;3. 数据背后的原因纠结显得过时,因为数据的相关性已经告诉了我们需要知道的信息;4. 科学或数据模型是不需要的。

  虽然大数据向科学家、企业家以及政府展现出了光明前景,然而这四条理论完全是出于最乐观、最单纯的角度,如果忽略了一些过去的经验教训,它也注定会让人们失望。在关于谷歌流感趋势预测的文章发表4年以后,《自然》杂志报道了一则坏消息:在最近的一次流感爆发中谷歌流感趋势不起作用了。虽然过去几年的冬天,谷歌流感趋势信心满满地提供了一系列迅速准确的流感爆发情况统计信息。但不知从何时开始,这个模型渐渐失去对流感的灵敏嗅觉。在谷歌的模型数据中显示将有一场严重的流感爆发,但当疾病防治中心最终将漫无边际但依旧准确可靠的数据送达时,这些数据表明谷歌对流感疾病传播情况的预测夸大了近两倍。

  问题是谷歌不知道甚至根本无法知道是什么原因将搜索词条和流感的传播联系在一起。谷歌的工程师也并没有试图搞清楚背后的原因,他们只是简单地寻找数据中的规律。比起前因后果,他们更在乎数据之间的相关性。这种情况在大数据分析中相当常见,但要想搞清楚前因后果很困难,不过搞清楚哪些数据是相互关联的则成本更低,也更容易。因而,Viktor Mayer- Schnberger和Kenneth Cukier在他们的著作《大数据》中写道:“在大数据分析中针对因果关系的探究不会被丢弃,但是它正渐渐撤出数据研究的主要基石地位。”

  那些没有理论支持而只着重于数据相关性的分析必然是脆弱且站不住脚的。如果人们不明白表象相关性背后的事情,那么就不会知道什么原因会导致那种相互关联性的破裂。关于谷歌流感趋势失败的一种解释,2012年12月的新闻里总是充满了耸人听闻的故事,而这些故事激发了那些健康人群在线搜索的兴趣。另一个可能性解释是,谷歌自身的搜索法朝令夕改,当人们输入信息时,系统会自动提示诊断信息。

  在过去的200年里,统计学家们一直致力于弄清楚是什么阻挡了人们单纯地通过数据来理解这个世界。虽然当前世界数据的量更大,传播速度更快,但是并非意味着过去那些陷阱都已经安全处理了,因为事实上它们并没有消失。

分享到: 0 转载请注明来源:中国社会科学网 (责编:刘淼)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们