Databricks对数据科学的定义为:
Data science is an interdisciplinary field made up of domain knowledge, applied statistics, computer science, and machine learning with the goal of using data within a scientific process to develop and apply knowledge in a specific domain.
数据科学家使用数据的方式是至关重要的,由以下数个步骤组成。
这个科学方法的第一步骤是提出问题,然后提出一个猜想来试图回答这个问题。为了证明我们的猜想我们需要,我们可能设计一系列的实验。我们需要分析以及解释实验的结果,并最终对这些结果进行讨论和交付。
-
如何提出一个好问题
- 科学从业者必须具有研究课题的背景知识,了解问题是否和自己的研究背景相关联
- 科学从业者需要知道这些问题是否可以被客观回答
- 科学从业者需要了解是否可以设计一个实验来验证这个问题,以及实验的结果能否被良好地分析和解释。 -
提出假设(hypothesis)
假设可以分为两种,即Null hypothesis和Alternative hypothesis。
Null hypothesis 可以用 H 0 H_{0} H0表示,代表着某件事物没有影响或没有作用。举一个例子,某种药物对于人的预期寿命没有影响。
Alterenative hypothesis可以用 H A H_{A} HA表示,代表着某件事物具备某些影响。比如,某种药物可以提升人的预期寿命。 -
执行一个实验或者分析
设计一个有效的实验或者分析项目时,这通常会要求一个数据从业者收集数据,且一般数据都会通过自动化的数据管道进行收集。而数据也可以从其它数据中产生,比如使用一个预测模型。 -
分析和解释结果
一旦数据被收集到了之后,数据从业者就可以开始分析和解释结果,并由此得出关于一个实验或分析的结论。这个结论会包括:
-用有意义的方式审视数据,以尝试确定假设的有效性。
-决定数据从业者的假设是否正确,这个结果通常可能是对Null hypothesis的否认,或者是尚不能否认Null hypothesis。
-此步骤的最终结果应始终是对alternative hypothesis正确程度的客观决策。 -
沟通和交付结果
仅仅得出假设的正确与否的结论还不是我们这个科学方法的最后一步。要让科学研究结果产生价值或者让我们的工作富有意义,沟通和交付结果是必不可少的一步。沟通的方式多种多样,有可能是给利益相关者的一场幻灯片展示,也可能是一个实时仪表盘,亦或者是直接把项目结果交付给最终用户/客户。
Databricks提供的例子:
案例上半部分是对每个阶段的举例说明,而下半部分是在每个阶段,数据从业者所需要掌握的能力。