"数据科学概论"课程设计

最新推荐文章于 2023-06-30 13:24:58 发布

VIP文章唐名威

最新推荐文章于 2023-06-30 13:24:58 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/weixin_45585364/article/details/100159033

版权

"数据科学概论"课程设计

覃雄派1, 陈跃国1, 杜小勇1, 王伟娟2

1. 中国人民大学信息学院，北京 100872

2. 中国人民大学出版社，北京 100872

摘要：数据时代已经到来，为了挖掘大数据的价值，社会急需大量合格的数据科学家，数据科学家的培养是一个紧迫的问题。提出了三大课程群的课程体系建设思路，其中“数据科学概论”是数据科学课程群的导论和入门性质的一门课程。本课程通过案例对关键技术的原理进行介绍，提供了中等规模实际问题的全流程实践案例，有利于学生掌握。数据科学是一门交叉学科，课程应该体现学科交叉的特点。对于时间序列数据，从统计学视角和数据挖掘/机器学习视角，对其分析和建模技术进行了介绍和比较。

关键词：数据科学；课程群；数据科学概论；课程设计

doi:10.11959/j.issn.2096-0271.2017065

640?wx_fmt=jpeg

论文引用格式：覃雄派, 陈跃国, 杜小勇, 等. “数据科学概论”课程设计[J]. 大数据, 2017, 3(6): 102-111.

QIN X P, CHEN Y G, Du X Y, et al. Course design of the"Introduction to Data Science"[J]. Big Data Research, 2017, 3(6): 102-111.

640?wx_fmt=jpeg

1 引言

信息技术的进步大大降低了人们获取数据、存储数据和传输数据的成本，使得越来越多的企业/机构有能力从自身的业务系统或通过互联网等其他途径获取规模日益庞大的数据。数据的价值对于企业而言越发重要，人们更加重视对历史数据的积累。

不断堆积的数据在规模和复杂度上逐渐超越了企业/机构采用已有技术方案在执行数据管理和数据分析任务时所能达到的处理能力，形成了大数据。

大数据[1,2]具有3个主要的特点，其中最重要的特点是数据量大（big volume），其规模超出了已有工具的处理能力，需要研发新的工具进行处理。大数据的第二个特点是数据类型多样，人们希望把不同来源、不同类型的数据关联起来，进而分析其中隐藏的规律。大数据的第三个特点是数据生成速度快，比如在传感器网络中，传感设备生成的数据数量大、速度快，需要及时处理。

数据中蕴含着规律性，即数据中包含价值。很多企业/机构对于收集数据乐此不疲，究其原因，是数据带来的价值或者潜在的价值超出了它们收集数据和管理数据的成本。数据的价值体现通过两个实例可见一斑。2012年，早在飓风Frances来临的一周之前，沃尔玛（Wal-Mart）公司的首席信息官（chief information officer ,CIO）Linda M Dillman督促她的团队根据几周之前飓风Charley来袭期间沃尔玛的销售数据，对新飓风来袭的销售进行预测。这些销售数据保存在数据仓库中，达到TB级别。基于这些数据，可以预测将要产生的销售情况，其目的是提高公司的销售额。分析人员对数据进行挖掘分析，以发现对某些产品的不同寻常的需求。他们发现，人们确实更多地购买了某些特定的产品，而不是普通的手电筒等。比如，他们以前并没有了解到，飓风到来前，草莓馅饼的销售量出现了增长，是平时销量的7倍左右，而最畅销产品则是啤酒。据此，他们提前备货，并且及时销售出去，极大地提高了公司的销售额。2016年，谷歌公司的AlphaGo围棋程序击败了人类棋手李世石九段，给人们留下了深刻的印象。Deep Mind公司开发的AlphaGo程序利用深度学习、增强学习、蒙特卡洛树搜索等技术建立了学习模型，然后用成千上万的实际对弈棋局对其进行训练，使其棋艺不断得到增强，最后达到甚至超过人类九段的水平。

数据科学家是伴随大数据技术的崛起和数据科学的兴起而出现的新的就业岗位。近年来，对数据科学家的需求持续增长。数据科学家被誉为21世纪最性感的职业。他们使用各种技术对不同来源的数据进行分析，帮助企业做出更加明智的决策。

2 数据科学的创立

数据科学是2010年以来逐渐兴起的科学分支，人们普遍认为该门科学正在逐步形成，其知识体系仍在创立之中。

根据维基百科的释义，数据科学是一个交叉的领域，它研究具体的方法、过程和系统，以便从不同形式的数据（包括结构化数据和非结构化数据）中抽取知识，获得对事物的理解和洞察。从这个意义上讲，数据科学和传统的数据挖掘是类似的。但数据科学的内涵有所扩大，它是一个全新的概念，试图把统计方法和数据分析方法统一起来，目的是分析和理解客观现象产生的数据。它吸收了来自若干传统领域的技术和方法，这些领域包括数学、统计学、计算机科学，特别是计算机科学领域的数据库、大数据、机器学习、数据挖掘、数据可视化等子领域的相关技术和方法。

就笔者的理解，数据科学的本质是从数据中挖掘和抽取价值。数据科学是对数据分析、抽取信息和知识的过程提供指导和支持的基本原则和方法的科学。数据科学研究各种类型数据的不同状态、属性及其变化规律，研究各种方法和技术手段以对数据进行简单以及复杂的分析，从而揭示自然界和人类行为等不同现象背后的规律。

数据科学的核心任务是从数据中抽取信息、发现知识。它的研究对象是各种各样的数据及其特性。数据科学包含一组概念、原则、过程、技术/方法以及工具，为其核心任务服务。其中，概念和基本原则给予人们观察问题、解决问题的一套完整的思想框架，而大量的数据分析技术/方法和工具则帮助人们切实实现数据科学的目标。

简而言之，数据科学是以各