数据科学时代的计算机(学院/学派)与统计学(学院/学派)

最新推荐文章于 2022-02-26 20:15:00 发布

xiongpai1971

最新推荐文章于 2022-02-26 20:15:00 发布

阅读量816

点赞数 1

分类专栏：教材文章标签：数据科学计算机统计学融合

本文链接：https://blog.csdn.net/xiongpai1971/article/details/84038353

版权

教材专栏收录该内容

24 篇文章 12 订阅

订阅专栏

数据科学离不开计算机(包括数据库、数据挖掘、机器学习等)，数据科学离不开统计学。这几乎已经是大家的共识了。

但是在数据科学的旗帜下，如何摆放计算机、和统计学，如何融合计算机和统计学，却不是那么容易。统计学家，习惯于用模型来套数据，用模型来套世界。比如对于时间序列数据，统计学家推出了AR、MA、ARMA、ARIMA、SARIMA、ARCH、GARCH等一系列模型，也取得了巨大的成功。这些方法具有如下优势，(1) 模型具有坚实的数学理论基础；(2) 模型建立在演绎推理基础上，具有严密的逻辑性；(3) 分析结果一般以数学方程形式给出，可解释，能获得精确结果。但是也有一些主要的劣势，(1) 模型只能刻画系统的整体特征和规律，对细节的刻画不够；(2) 模型构建需要很强的技巧；(3) 模型对假设条件依赖性强,实际情况有时很难满足。

数据科学对时间序列的处理和分析，不能只有这个角度。倘若这样，就不是数据科学了，还是叫统计学。连瓶子都没有换，旧瓶装旧酒。

搞计算机、数据挖掘、机器学习的人们，习惯用另外一套方法。他们不假设数据符合某个数学模型(公式)，数据本来是什么样就是什么样，他们的任务是从数据中挖掘规律性。他们使用表示、分段、相似度、分类、聚类、异常检测等一系列手段和方法，去处理时间序列数据，也取得了相当的成功。这些方法具有如下优势，(1) 能发现反映系统局部特征和规律的模型；(2) 数据挖掘和机器学习能发现“新”的知识；(3) 数据挖掘和机器学习无需一些苛刻的假设条件；(4) 数据挖掘和机器学习比较容易获得很多规则，反映系统多方面的特征，并且能够及时更新。同时存在一些主要的劣势，(1) 对挖掘出来的规则，进行筛选比较困难，需要具体业务领域的经验；(2) 数据挖掘和机器学习建立在归纳推理基础上，逻辑性不强，得出的规则需要验证；(3) 模型难以用数学方程表达，有的甚至是黑盒子(比如神经网络模型)，可解释性差；(4) 模型具有时效性，需要不断更新。我们可以看到，统计学方法、数据挖掘/机器学习方法从某种意义上讲，具有互补的关系。

这两个学院、这两拨人、这两个领域(学派)，向来各干各的，都做得很好。但是数据科学不是这样子的，应该是两者的融合和提高。真正整合起来，不是那么容易，有思想上的困难，也有建制上的困难。

搞统计的人们，认为计算机就是个工具，相对于统计的一整套(严谨的漂亮的)理论、方法体系，计算机就是打打下手的角色。搞计算机的人们，当然不服气。没有他们的不懈努力和突破进展，自动驾驶能够实现吗？基于计算机的辅助医疗能够实现吗？机器人能够后空翻吗？拿几个分布函数去框一框试试看，效果如何？他们认为，统计学是一个非常重要的、基础性的数学工具，但终究是要为数据处理和分析服务的。流程应该是这个样子，学好统计学，然后研究计算机模型，最后解决实际业务问题，统计学应该为计算机(模型)服务。

在建制上，目前建设数据科学专业的有统计学院、计算机学院、甚至商学院等。他们之间的学科交叉，目前也就发生在一些具体的问题、具体的项目上。要真正实现深层次的学科交叉融合，和数据科学人才的培养，可能需要建立数据科学学院这样的机构，而这个机构应该由在两个领域都有号召力的专家来领导。

xiongpai1971

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数据科学时代的计算机(学院/学派)与统计学(学院/学派)

数据科学离不开计算机(包括数据库、数据挖掘、机器学习等)，数据科学离不开统计学。这几乎已经是大家的共识了。但是在数据科学的旗帜下，如何摆放计算机、和统计学，如何融合计算机和统计学，却不是那么容易。统计学家，习惯于用模型来套数据，用模型来套世界。比如对于时间序列数据，统计学家推出了AR、MA、ARMA、ARIMA、SARIMA、ARCH、GARCH等一系列模型，也取得了巨大的成功。这些方法具有如...
复制链接

扫一扫