这就意味着我们必须关注:当数据点以数量级方式增长的时候,我们会观察到许多似是而非的相关关系。 这个观点是1888年查尔斯的表弟弗朗西斯高尔顿爵士(Francis Galton)提出的,因为他注意到人的身高和前臂的长度有关系。相关关系背后的数学计算是直接而又有活力的,这是相关关系的本质特征,也是让相关关系成为最广泛应用的统计计量方法的原因。 但是在大数据时代之前,相关关系的应用很少。因为数据很少而且收集数据很费时费力,所以统计学家们喜欢找到一个关联物,然后收集与之相关的数据进行相关关系分析来评测这个关联物的优劣。 如果不合适,人们通常会固执地再次尝试,因为担心可能是数据收集的错误,而最终却不得不承认一开始的假想甚至假想建立的基础都是有缺陷和必须修改的。 这种对假想的反复试验促进了学科的发展。但是这种发展非常缓慢,因为个人以及团体的会我们的双眼,导致我们在设立假想、应用假想和选择关联物的过程中犯错误。 在大数据时代,通过建立在人的基础上的关联物监测法已经不再可行,因为数据库太大而且需要考虑的领域太复杂。 幸运的是,许多我们选择假想分析法的条件也逐渐消失了。我们现在拥有如此多的数据,这么好的机器计算能力,因而不再需要人工选择一个关联物或者一小部分相似数据来逐一分析了。 复杂的机器分析能为我们辨认出谁是最好的代理,就像在谷歌流感趋势中,计算机把检索词条在5亿个数学模型上进行测试之后,准确地找出了哪些是与流感最相关的词条。 我们理解世界不再需要建立在假设的基础上,这个假设是指针对现象建立的有关其产生机制和内在机理的假设。 取而代之的是,我们可以对大数据进行相关关系分析,从而知道哪些检索词条是最能显示流感的的,飞机票的价格是否会飞涨,哪些食物是飓风期间待在家里的人最想吃的。 大数据的相关关系分析法更准确、更快,而且不易受的影响。建立在相关关系分析法基础上的预测是大数据的核心。 一碗面拐到美艳妻 |