大数据时代下,统计分析如何发展?

大数据(Big Data)时代下,我们面临海量、高速增长和多样化的信息。那么,我们对于基于随机分析,或者说抽样调查,的统计分析的来对数据进行分析和处理还适用吗?

我认为,大数据时代下,人类对于产生的信息的收集、传播、存储、分析方面面临诸多挑战。而对于统计学来说的最主要的挑战则是信息的收集和分析方面的。

现在,我们已经能够做到对总体进行全方位的收集,已经基本上可以不能用采样这个词来描述我们的收集,我们拥有的是all data,于此带来的新的问题是如何作出个性化的分析与推断。也就是如何解决大量数据种大量特征的提取问题,传统的方法可以解决这些问题,但是我们需要解决问题的高效性,如果解决一个问题需要以年为单位的计算时间,而这个问题的时效性是以分钟或者天为单位的,那么,除了去不断提高我们的计算能力和计算资源,我们还需要去反思,我们能不能以牺牲一部分精确度为代价来快速解决问题?(或者不需要牺牲精确度)。

同时在处理数据的时候,对于数据的采样、清洗的方法,统计学能否提出更好的解决方案?

最后,建立在传统统计分析下的统计学习,依旧在机器学习里发挥着重要的作用。有人说,deeplearning的出现基本打破了统计学习在特征提取上的独霸地位,但是,不可否认的是,deeplearning同时也需要耗费大量的计算资源,如何对采集好的数据进行更合理采样以缩小学习的成本,也是神经网络学派需要面对的,这些,难道不是统计学的未来需要关注的吗?

统计学本身是一门通过数据来发现规律或者说pattern的科学,也就是它的重点是发现pattern,那么,为什么要极力去避免一个又有力的发现爱呢pattern的领域而不去好好研究它的机理呢?