《数据科学概论》教材介绍

备注:

      最新版本的《数据科学概论》教学大纲,请参考。https://blog.csdn.net/xiongpai1971/article/details/89364071

此外,可以访问https://datascience.neocities.org/以及http://xiongpai.gitee.io/datascience/

教材

    覃雄派,陈跃国,杜小勇. 《数据科学概论》.中国人民大学出版社.ISBN: 9787300252926.

    官方主页:[点击链接]

    CSDN博客[点击链接]

    SINA博客[点击链接]

    京东:[点击链接]

    亚马逊:[点击链接]

    当当:[点击链接]

    

前言

    大数据时代已经来临,数据中蕴含价值。挖掘数据中的价值,可以发现新知,为我们的经济、社会、生活提供决策依据,创造更加美好的生活。

    大数据时代需要大量合格的数据科学家。数据科学家应该具有宽广的理论视野,同时具有扎实的技术功底。

    数据科学是基于计算机科学(数据库、数据挖掘、机器学习等)、统计学、数学等学科的一门新兴的交叉学科。它研究数据的各种类型、状态、属性及其变化规律,它研究如何对数据进行分析,从而揭示自然界和人类行为等现象背后的规律。

    随着大数据时代的到来,以及数据科学的兴起,来自计算机、统计学、经济学、金融学、档案学等不同专业的师生,急切需要一本内容全面、论述清楚、通俗易懂的入门或者导论性质的教材。《数据科学概论》教材,顺应这个需求。本教材对数据科学的核心问题,即对数据进行分析,从而提取价值,获得对事物的洞察和理解的各种技术手段,进行全面的论述。

    这本教材为《数据科学概论》课程而设计,这是一门入门和统领式的课程,为后续课程,比如深度学习、统计分析、数据挖掘、机器学习等课程的学习,打下坚实的基础。有利于培养新一代数据科学家,为各行各业的数据处理,提供急需的人才。

 

本教材的主要特点

(1) 兼顾理论、技术、方法的论述和实践性

    本书包括四大模块,前两个模块主要讲述数据科学的基本概念、原则、方法,以及各种类型数据的管理和分析技术,后两个模块介绍具体的平台和工具,以及数据科学的成功案例和具体领域的实践。读者不仅知其然,还可以知其所以然。

    这四大模块简单介绍如下,(1) 概论:数据科学的基本概念、原则、和方法。(2)数据和数据上的计算:主要数据类型包括,结构化数据、文本、社交网络、时间序列、轨迹数据等。主要分析方法包括,统计分析、机器学习(深度学习)、数据挖掘等。批处理、流数据处理、交互式处理。(3)基础设施、平台和工具:介绍云平台、数据库、Hadoop/Spark大数据平台、Python语言、统计分析/数据挖掘/机器学习工具库。传统的关系数据库技术和系统,新型的noSQL技术和系统,以及文本分析、社交网络分析的工具,在第二部分的各章进行简单介绍。(4)数据科学案例和实践:数据科学成功案例,量化交易实践。

    在教材编写的过程中,我们利用开源的数据集以及工具,同步建设案例库。方便学生在学习的过程中,通过运行这些案例,加深对数据科学的重要概念和技术原理的理解和运用。

    使用本教材,通过《数据科学概论》课程的学习,学生们将具备扎实的基础理论、系统的知识结构、以及统计分析/数据挖掘/机器学习的实践能力。

(2) 清晰的内容展示路线图

    本教材内容广泛、全面,为了把内容有效组织起来,本教材采用深度展开和宽度展开的内容展示路线图。

    (a) 理论部分,先由浅入深,再宽度展开,旨在培养学生宽广的视野,形成完整的知识体系。在介绍数据科学基本概念、原则和方法的基础上,本教材按照在线事务处理和数据服务、在线数据分析和结构化数据分析、到数据的深度分析(包括统计分析、机器学习和数据挖掘)的路线,由简单分析到复杂分析,层层引导用户了解数据的管理和分析的主要技术和方法。

    然后,本教材接着进行宽度展开。分别介绍了批处理模式之外的流数据处理,结构化数据之外的文本数据、社交网络数据、时间序列数据、轨迹数据等的管理和分析技术与方法。

    (b) 实践部分先宽度展开,再深入量化交易领域,旨在培养学生的动手能力和浓厚兴趣。

    通过深度展开和宽度展开的论述,本教材全面讲述各种类型的数据及其蕴含的价值以及用何种技术可以对这些数据进行分析,以便发挥其价值。

(3) 案例式、形象化论述

    作为一本入门的教材,本教材避免陷入数学公式的复杂推导过程(必要的数学知识是需要的)

    在对数据管理和分析的主要技术和方法的介绍中,我们采用直观的案例、形象化的图形等手段,通过浅显易懂的语言,深入浅出地进行论述。使得本书的内容不会枯燥无味,方便读者迅速掌握这些概念和技术的要领。让不同背景的读者感受到数据的分析和处理,是如此的有趣和有价值。

    我们认为,作为一本导论性质的教材,采取这种方式是合适的。不仅计算机专业的学生很容易理解和把握书本的内容,其它专业比如经济学、金融学、统计学、档案学、新闻学等专业的学生,理解起来也不会有太大困难。

    数据科学已经渗透到各行各业,不同专业背景的读者,都可以把本书论述的数据处理方法,应用于本专业的研究,解决实际问题。比如来自新闻专业的学生,可以利用文本分析技术和可视化技术,对新闻进行分析和可视化等。这些专业的学生,正急需这样一本入门的教材。

 

附录

[1]《数据科学概论》资源(code,ppt...)下载[点击链接]

[2]数据科学概论课程设计.大数据, 2017,06: 102-111.[点击链接]

[3]教师服务登记表:[点击链接]

 

©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页