数据科学时代的计算机(学院/学派)与统计学(学院/学派)

数据科学离不开计算机(包括数据库、数据挖掘、机器学习等),数据科学离不开统计学。这几乎已经是大家的共识了。

但是在数据科学的旗帜下,如何摆放计算机、和统计学,如何融合计算机和统计学,却不是那么容易。统计学家,习惯于用模型来套数据,用模型来套世界。比如对于时间序列数据,统计学家推出了ARMAARMAARIMASARIMAARCHGARCH等一系列模型,也取得了巨大的成功。这些方法具有如下优势,(1) 模型具有坚实的数学理论基础;(2) 模型建立在演绎推理基础上,具有严密的逻辑性;(3) 分析结果一般以数学方程形式给出,可解释,能获得精确结果。但是也有一些主要的劣势,(1) 模型只能刻画系统的整体特征和规律,对细节的刻画不够;(2) 模型构建需要很强的技巧;(3) 模型对假设条件依赖性强,实际情况有时很难满足。

数据科学对时间序列的处理和分析,不能只有这个角度。倘若这样,就不是数据科学了,还是叫统计学。连瓶子都没有换,旧瓶装旧酒。

搞计算机、数据挖掘、机器学习的人们,习惯用另外一套方法。他们不假设数据符合某个数学模型(公式),数据本来是什么样就是什么样,他们的任务是从数据中挖掘规律性。他们使用表示、分段、相似度、分类、聚类、异常检测等一系列手段和方法,去处理时间序列数据,也取得了相当的成功。这些方法具有如下优势,(1) 能发现反映系统局部特征和规律的模型;(2) 数据挖掘和机器学习能发现的知识;(3) 数据挖掘和机器学习无需一些苛刻的假设条件;(4) 数据挖掘和机器学习比较容易获得很多规则,反映系统多方面的特征,并且能够及时更新。同时存在一些主要的劣势,(1) 对挖掘出来的规则,进行筛选比较困难,需要具体业务领域的经验;(2) 数据挖掘和机器学习建立在归纳推理基础上,逻辑性不强,得出的规则需要验证;(3) 模型难以用数学方程表达,有的甚至是黑盒子(比如神经网络模型),可解释性差;(4) 模型具有时效性,需要不断更新。我们可以看到,统计学方法、数据挖掘/机器学习方法从某种意义上讲,具有互补的关系。

这两个学院、这两拨人、这两个领域(学派),向来各干各的,都做得很好。但是数据科学不是这样子的,应该是两者的融合和提高。真正整合起来,不是那么容易,有思想上的困难,也有建制上的困难。

搞统计的人们,认为计算机就是个工具,相对于统计的一整套(严谨的漂亮的)理论、方法体系,计算机就是打打下手的角色。搞计算机的人们,当然不服气。没有他们的不懈努力和突破进展,自动驾驶能够实现吗?基于计算机的辅助医疗能够实现吗?机器人能够后空翻吗?拿几个分布函数去框一框试试看,效果如何?他们认为,统计学是一个非常重要的、基础性的数学工具,但终究是要为数据处理和分析服务的。流程应该是这个样子,学好统计学,然后研究计算机模型,最后解决实际业务问题,统计学应该为计算机(模型)服务。

在建制上,目前建设数据科学专业的有统计学院、计算机学院、甚至商学院等。他们之间的学科交叉,目前也就发生在一些具体的问题、具体的项目上。要真正实现深层次的学科交叉融合,和数据科学人才的培养,可能需要建立数据科学学院这样的机构,而这个机构应该由在两个领域都有号召力的专家来领导。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值