前言:文章基于人大的《数据科学概论》,主要是总结第一章—数据科学概论 的一些重点内容。里面有些比较细的概念,有心的读者可以自己去查找资料。
文章目录
1.1数据科学的定义
(1)数据科学
数据科学是对数据进行分析,抽取信息和知识的过程,提供指导和支持的基本原则和方法的科学。
数据科学的核心任务是从数据中抽取信息、发现知识。
数据科学包含一组概念、原则、过程、技术/方法、工具为其核心任务服务。
1.2数据科学和统计学、人工智能机器学习、数据挖掘、数据库与数据处理、大数据分析、基于数据的决策 的关系
(1)数据科学跨学科的特点
数据科学是基于计算机科学(数据库、数据挖掘、机器学习等)、统计学、数学等学科的一门新兴的交叉学科。从统计学、人工智能、机器学习、数据挖掘、数据库与数据处理、大数据分析等领域,吸取有效的成分,不断创建起来。
(2)数据科学与数据库、大数据分析的关系
数据库的运行,积累了大量的基础信息,为数据科学提供了重要的“原材料”。
大数据分析是(机器学习与数据挖掘),是数据科学的有效组成部分。
(3)数据科学与基于数据的决策的关系
1、基于数据的决策:人们基于数据分析的结果进行决策,而不仅仅是基于直觉,拍拍脑袋进行决策。
2、数据科学的目的:通过分析理解数据、获得洞察力,它包含一系列的基本原则、过程、技术/方法、和工具。
二者的关系:***故数据科学是为基于决策服务的***即我们从数据中挖掘其隐藏的模式,获得新知,目的是指导我们新的行动
1.3数据科学家
数据科学家需要的技能:拥有一系列的知识和技能,包括一定的数学基础、统计分析、机器学习、数据挖掘、数据可视化、编程能力、对具体应用领域的深入了解、以及良好的沟通能力。
1.4数据科学的基本原则
(1)原则1:数据分析可以划分成一系列明确的阶段
分析数据、获得知识,从而解决具体的业务问题,是数据科学的核心任务。这个任务可以划分为 理解业务数据、收集数据、对数据进行集成、对数据进行分析挖掘、对结果进行可视化、把结果表达给目标听众等