注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

分享,态度 ·~~

—— 十年太长,五年;如果可以回到五年前,你最想对那时候的自己说什么?

 
 
 

日志

 
 

大数据时代预测更易失败  

2014-10-29 17:10:34|  分类: BigData |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
本文来自网络(“36大数据”),是对《The Signal and the Noise》一书的总结概括;没有看过此书的博友也可以藉此了解一下作者 Nate Silver的基本观点。
在信息爆炸的大数据时代,我们所要做出的预测的速度和数量都在不断增加。但预测者们被众多信息中的噪声干扰,经常忽视了其中真正的信号。真正优秀的预测者会用概率的方法思考问题,他们谦虚而且勤恳,他们能清楚地区分什么是不可预测的、什么是可预测的,他们注重能带领他们接近真相的成千上百个小细节,他们能辨识出什么是噪声、什么是信号。

“信息越多,越靠近真相”——真是这样吗?

科技进步最大的悖论在于,科技进步既让我们迈入能更准确预测未来的大数据时代,但科技的进步也成为我们预测未来的最大变数。

大数据时代预测更易失败 - 乂乂 - 分享,态度 ·~~

人们普遍认同的逻辑一般是:信息越多,信息流动速度越快,人们对未来的预测越准确,从而越能做出更合理的决策。但是且慢,你怎么知道你 Google 到的“信息”是有用的“信号”(有用的信息),还是干扰你的“噪声”(无关/无用的信息)呢?我的意思是,如果你在时间充裕,方法/模型适当的条件下,你可以辨别出信号,做出合理决策。但现实往往是,你基本上总是不会拥有充裕的时间,甚至使用的方法/模型也不合适。在信息增长越来越快的现在,我们面临这样的困境会越来越多。

《自然》杂志曾刊登过一项研究,研究发现:美国几大政党对全球变暖的问题了解越多,他们之间达成共识的可能性就越小。 我们现在(这里的“现在”得比《信号与噪声》出版时间的2012年9月更早)每天产生250兆亿字节,如果信息每天以这个速度增长,其中有用的信息肯定接近于零。其中大部分信息都只是噪声而已,而且噪声的增长速度要比信号快得多。其中有太多假设需要验证,有太多数据需要发掘,但客观事实的数量却是个相对恒量。人脑能力非凡,但根据IBM的分析,人脑的存储量不过是全球每天所产生信息量的百万分之一而已。我们对自己记忆的信息一定需要精心挑选才行。

以美国经济预测为例。美国政府每年公布的数据,与经济指标直接相关的有4.5万个,而私人数据提供者要追踪高达400万个统计数据。一些经济学家忍不住想要把所有数据都混合在一起,并给一般的数据穿上优质的“外衣”。第二次世界大战之后只出现了11次经济衰退的情况,如果一个统计模型试图解释这11次衰退带来的后果,就必须从400万个数据中选择数据,由此得出的许多相关性都将会带有欺骗性。大数据专家热爱相关性,但如果我们不能分析出因果,我们永远无法确定该采用哪些指标去判断下一次经济衰退的迹象。

人们将噪声误认为信号的行为,在统计学上被称为“过度拟合”(overfit)。人类大脑的工作方式是捕捉规律,并且预测。一般来讲,智商高的人的神经网络学习能力更强,这意味着他捕捉规律的能力也越强。捕捉规律能力强意味着,对于很少的样本中隐含的不明显的“规律”他们也能捕捉出来。

但从很少的样本或噪声过多的样本中总结出“规律”来是极为危险的事——自然界的运行很多时候并没有确定的规律,我们带着一双为了发现规律的眼睛去挖掘总结,结果却聪明反被聪明误了。关于过度拟合的解释,冯 诺伊曼曾有一个形象的描述:给我4个参数,我就能拟合出一头大象,如果再加1个参数,我就可以让这头大象甩动它的鼻子。除了人类大脑,现在的机器学习也容易发生这样过度拟合的现象。

过度拟合在现实中往往是被鼓励的。无论汶川地震还是雅安地震之后,地震云或猪乱跳、羊乱叫之类的怪现象总会在微博、贴吧或论坛上流行。比如百度贴吧还有人整理了一份地震前兆大全,如果仅靠这些所谓前兆就能预测地震,那每年也不至于死伤那么多人、损失无数财产了。这是最为糟糕和最为浅显的过度拟合例子——把毫无关系的噪声当成了信号,从而认为噪声与事实相关。过度拟合现象在学术上也经常发生,逻辑非常好理解:提炼出模型总是引人关注,引人关注则更容易在学术期刊得到推介,也更容易被人引用,从而将其它可靠但可能没有模型化的理论排挤出市场。

预测失败,除了与我们将噪声当成信号以外,还跟我们对科技的发展无法预判有关。比如在19世纪末,一位《伦敦时报》的作家在研究伦敦街道上的马粪问题时说到:大约到20世纪40年代,伦敦每条街道会被厚达2.7米的马粪覆盖。但他所没预料到的是,大约十年后,亨利·福特开始生产 T型汽车。

伦敦不仅避免了马粪危机,与马和汽车周边的产业都发生了变革——铁匠工人失业,马场关门,油田工人、制造工人与装配工人却成为市场稀缺资源。举个更近的例子吧,在iPhone发布之前的2006年,谁又能知道诺基亚会在仅仅七年后以72亿美元的价格出售?

科技进步最大的悖论在于,科技进步既让我们迈入能更准确预测未来的大数据时代,但科技的进步也成为我们预测未来的最大变数。

【本文链接:http://zwkufo.blog.163.com/blog/static/25882512014929574702/
  评论这张
 
阅读(632)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017