数据科学不能等同于大数据
有些人把数据科学等同于大数据,一上来,就用几个V(Volume, Velocity, Variety, Veracity)来划分和把握数据科学的内容,或者用几个V来构造数据科学的内容体系。这是很成问题的。
(1)首先,数据科学是关于数据的科学,它研究数据的方方面面,所以不管是大数据还是小数据、中数据,都是数据科学应该研究的对象。(2)另外,大数据的“大”是一个相对的概念,今年的大,不一定是明年的大。读者一定有感受,几年前你的手机内存有1个G都算大了,现在的新手机6个G的内存起步,你说哪个是所谓的大内存?我们应该关注数据,数据的价值。管你大还是不大。
数据科学不能等同于机器学习
有些数据科学的教材,核心内容就是机器学习,也就是把机器学习改头换面成数据科学。把数据科学等同于机器学习也是很成问题的。人工智能/机器学习和数据(特别是大数据)有天然的联系,一个是处理手段,一个是原材料。但是数据科学绝不应等同于机器学习。
(1)数据科学研究如何对现实世界进行数字化(表示),如何把数据管理起来,如何深入分析这些数据等。机器学习是数据分析的手段,数据科学则比机器学习的范围要大的多。简单问一句,数据管理是不是数据科学?当然是,数据都没有管理起来,怎么样分析?
(2)有些统计学院也在开设数据科学课程,主要讲授一系列统计分析方法(和机器学习有覆盖overlap,但是主体内容是不同的),那么是否可以说数据科学就是统计分析呢?
数据科学到底是什么
数据科学研究数据本身,研究数据的规律性。
它包括一系列原则、过程、方法和工具,它研究现实世界的表示、数据的整个生命周期以及处理分析的手段,它研究各种各样的特定的数据类型、甚至跨越类型的数据整合和分析。
简而言之,数据科学研究数据的方方面面。包括数据,算法,算力(基础设施)以及应用等4个方面。