数据科学工作流程_举例说明数据科学的工作流程-CSDN博客

愚见，下面的信息，是需要首先明晰的。

数据分析、人工智能等与数据相关的工作，其工作流程是什么？
“数据可视化”，在数据科学中占有什么位置？
为了学会数据可视化的各种技能，都需要哪些前置知识和能力？

拙作《跟老齐学 Python：数据分析》一书中，列出了数据科学的发展简史，从中能体会到人类对数据的研究和应用。随着技术的发展，本质上是社会生产力的发展，数据驱动决策的观念越来越深入人心（此处推荐观看电影《点球成金》）。

都在谈论“数据科学”，那么什么是数据科学？需要有一个明确的说明。

对于概念性的东西，推荐参考“维基百科”或者某些经典著作。

下面的定义来自“维基百科”中的“数据科学”词条。

数据科学（英语：Data Science），又称资料科学，是一门利用数据学习知识的学科，其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术，包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

阅读了词条的解释，算是对数据科学有了初步的感性认识。

根据经验，对于专有名词的英文词条解释与其对应的汉语说明，还是有差异的。因此，特别建议再阅读“数据科学”的英文词条：Data science。

Data science is an interdisciplinary field that uses scientific methods, processes, algorithms and systems to extract knowledge and insights from data in various forms, both structured and unstructured, similar to data mining.

Data science is a "concept to unify statistics, data analysis, machine learning and their related methods" in order to "understand and analyze actual phenomena" with data. It employs techniques and theories drawn from many fields within the context of mathematics, statistics, information science, and computer science.

显然，中文“数据科学”和英文的“Data Science”两个词条的内容，从信息量上看，还是有差别的。

根据 Data Science 中的说明，数据科学所处理的数据包括“Structured”和“Unstructured”（即“结构化的”和“非结构化的”）。数据科学中有一个重要环节，名曰“特征工程”，就是要将一些非结构化的数据转变成通常算法能够处理的结构化的数据。当然，这不是本课程要讲述的内容，本课程中使用的数据都是“结构化的”数据。

通常，科学是基础理论部分，它不直接产生价值，它的价值会通过工程体现出来。因此，对应着“数据科学”的应用，就是“数据工程”。那么“数据工程”是怎样的实施流程呢？

下图是综合了一些书籍所述和个人工作经验而来的。

Data science workflow