今天介绍加拿大皇家科学院院士、ACM/IEEE Fellow、加拿大滑铁卢大学Tamer Özsu教授的报告《A SYSTEMATIC APPROACH TO DATA SCIENCE》。
该报告是2022年1月15日由北京大学王选计算机研究所数据管理实验室(PKUMOD)和大数据分析与应用国家工程实验室(北京大学)知识集成和智能决策中心主办的学术交流年会中的Keynote报告。
报告视频
本次报告的内容是介绍数据科学领域的相关概念和基本方法。
报告从六个方面介绍了数据科学领域的重要问题:数据科学的概念、数据科学的主要应用、数据科学的生态系统、数据科学的生命周期、数据科学的系统架构、以及数据科学的所属范畴,最后提出了几点值得思考的问题。接下来进行详细介绍。
01
数据科学的概念
基于数据驱动的方法通常包括数据收集、管理、分析、解释、数据可视化、以及结果分析等步骤。
数据科学是多个研究领域的融合,涉及到数据管理、人文科学、机器/统计学习、领域专业知识、可视化、最优化、社会科学、法律等多种领域技术。
数据科学通常与大数据、机器学习、人工智能等概念一起出现,但值得注意的是,这些概念之间并非简单的相等关系或包含关系。首先,数据科学并不完全等同于大数据,可以将大数据看作是数据构成的原材料,而数据科学的主要工作则是研究如何处理这些数据,对数据的正确理解和适当应用才能够使数据资源发挥应有的价值。另外,数据科学与人工智能也并非简单的包含关系,数据科学方法与人工智能技术的有机结合才促进了机器学习、数据管理等分析方法的发展进步。
02
数据科学的应用
数据科学通常与下游应用场景息息相关,具体应用场景赋予的数据科学研究的明确目标,也为核心技术提供必要的信息。可以说,几乎任何具有大规模数据的领域都能够为数据分析提供良好的研究基础,例如欺诈检测、推荐系统、生物医学领域等。下面简单进行介绍。
欺诈检测的目的是研究已有数据中的欺诈模式,欺诈问题的尽早发现可以及时防止数据遭到进一步损害和恶化,对数据管理和应用具有重要意义。精确率(主要是假阳性和假阴性问题)和实时性是欺诈检测研究中的重要方面。
数据科学的另一个重要应用是推荐系统,推荐系统是根据不同用户的特点提供个性化的服务,进而达到增加销量、提高点击率等目的。其中经典的方法有大规模协同过滤算法。
数据科学在可持续性研究领域也发挥了很好的作用,例如进行气候变化研究等。这一领域可以提供丰富的大规模数据资源,如地球观测数据、遥感数据、公众科学数据、地面观测数据、以及来自移动设备的高时空分辨率数据等。
03
数据科学的生态系统
数据科学的构建模块涉及四个主要部分:数据工程、数据分析、数据安全和隐私、以及数据伦理。接下来分别进行介绍。
1)数据工程
数据工程包含两个方面:i)数据准备,具体是数据获取/收集,数据清洗,数据来源与谱系研究等主要模块;ii)大数据管理,如数据集成,大数据存储和管理等。
数据准备流程主要有四个部分:
-
数据获取,为具体问题找到合适的数据;
-
数据集选择,确定最有价值和最适合的数据集;
-
数据集成,集成不同数据源的多模态数据;
-
数据清洗,减少集成数据中的杂质和错误。
大数据的4V特征是这一环节的重要数据基础:
-
规模性(Volume),即数据规模较大;
-
多样性(Variety),即数据来源和类型众多;
-
高速性(Velocity),即数据增长速度快;
-
真实性(Veracity),即数据中存在不确定性或错误数据,数据质量是重要因素之一。
数据集成过程中,数据质量是要考虑的重要问题。其中数据质量的评估维度多种多样,如准确性、完整性、一致性、时效性、有效性、唯一性等[1]。
2)数据分析
数据分析的定义是运用统计和机器学习技术,从所研究数据中汲取见解,以及对所研究系统的行为进行预测。
数据分析方法的类型有以下四类[2]:
-
描述型,如这些数据呈现了什么问题;
-
判定型,如数据揭示了问题发生的原因是什么;
-
预测型,如下一步将要发生什么,或当前决策的影响是什么;
-
规范型,如给出行动的建议。
常见的数据分析任务有:
-
数据聚类,工作主要是将数据对象分为多个簇;
-
异常值检测,即异常数据的检测;
-
关联规则挖掘,发现数据之间潜在的关系;
-
预测,即对数据进行分类或回归。
3)数据安全和隐私
数据隐私和安全也是不容忽视的重要问题之一,大数据环境下面临的问题有很多,例如人为因素导致的错误、网络攻击、间谍软件、软件漏洞、计算机病毒等。
其中面临的主要威胁有:数据泄露、数据监视、虚假信息、设备攻击。
因此,数据保护也具有多个不同维度:在数据安全方面,有数据加密、网络安全、访问控制、活动监测、漏洞响应、数据丢失防护、数据威胁防护等;在数据隐私方面,涉及的维度包括数据发现和分类、第三方管理、数据清除等[3]。
另外,此处要将传统的安全/隐私概念与数据科学领域中的数据安全/隐私概念进行区分。传统安全/隐私往往关心的是数据的保密性和完整性,即未授权用户不能访问或修改相应数据;而数据科学领域中的数据安全/隐私,通常考虑数据的隐私性和真实性,即允许用户控制其他人对其数据的使用,以及所提供数据的真实有效性。
4)数据伦理
数据伦理,主要研究和评估与数据、算法和相应实践相关的伦理问题,以制定和支持具备良好伦理的解决方案[4]。
数据伦理涉及的问题有:
-
所有权,即谁具有数据的所有权;
-
透明度,即数据的主体应该知道他们的数据正在被收集、存储及使用;
-
隐私性,主要保护个人可识别信息;
-
目的性,例如即将如何处理这些数据。
其中对于算法伦理,通常考虑的是算法偏差。算法偏差涉及了算法使用过程中的各个环节,如数据收集模块,所获得的训练数据集可能存在表示偏差;在特征工程模块,对不同特征的选择和使用会引入相应偏差;在算法预测模块,对结果的测量估计也会引入偏差。
为了在数据科学研究过程中避免数据伦理问题,我们需要在研究过程中对以上问题进行思考和检查,例如是否对训练数据进行验证,以确保训练数据具有代表性;或我们是否研究了数据中可能存在的偏差来源等。
04
数据科学生命周期
数据科学的生命周期包括以下五个部分[5][6]:
-
应用需求,对具体应用进行问题定义;
-
数据准备,包括数据集确定、数据集选择、数据集成、数据质量优化等;
-
数据存储和管理,涉及大规模分布式数据存储、大数据处理平台、数据存取接口、数据来源等问题;
-
数据分析,使用统计或机器学习等方法进行数据挖掘;
-
方法实施,最后进行数据和分析结果的解释说明。
05
数据科学系统框架
上图展示了两个经典的大数据系统结构[7][8],以后者为例,从数据收集、处理到最终存储,数据科学研究涉及了多个模块和多种技术,共同对数据进行处理分析,最终形成有价值的数据得以存储和利用。其中数据处理模块,涉及到信息抽取、预处理、数据处理、数据集成等多个领域,每一领域又包含了多种具体技术,如信息抽取这一分支,包含了分类、关系抽取、结构抽取、基本信息抽取、实体识别等多项技术。
06
数据科学所属范畴
数据科学本质上可看作是计算机科学与统计学的结合和扩展[9]。
数据科学领域的核心竞争力可概括为:
-
至少有一个数据工程或数据分析支柱领域的深入知识(专家级别);
-
具有其他三大支柱领域的实用知识;
-
对至少一个(最好是两个)应用领域有深入了解(几乎达到专家水平);
-
具有团队合作和沟通能力。
07
问题思考
最后,报告总结了五点数据科学领域中值得思考的问题:
-
数据是数据科学研究的核心,而数据的规模和复杂性均在不断增加;
-
正确地处理使用才能发现数据潜在的价值;
-
数据科学是多方面和多学科的科学;
-
数据科学可能还不是一门学科,但可以成为一门学科;
-
本文提出的观点仅从STEM(计算机科学)角度进行思考和解读。
··参考文献··
[1] DAMA UK Working Group, 2013
[2] https://www.kdnuggets.com/2017/07/4-types-data-analytics.html
[3] https://dataprivacymanager.net/security-vs-privacy/
[4] Florid, L., and M. Taddeo. "What is Data Ethics?" Philosophical Transactions of The Royal Society A Mathematical Physical and Engineering Sciences 374.2083(2016).
[5] Shearer, C.. "The CRISP-DM model: the new blueprint for data mining." International Journal of Data Warehousing and Mining, (2000).
[6] Finance, Q. "The Art of Statistics: Learning from Data." (2019).
[7] Sang, G. M. , X. Lai , and P. D. Vrieze . "A reference architecture for big data systems." 2016 10th International Conference on Software, Knowledge, Information Management & Applications (SKIMA) IEEE, 2016.
[8] Salma, C. A., B. Tekinerdogan , and I. N. Athanasiadis . "Domain-Driven Design of Big Data Systems based on a Reference Architecture." Software Architecture for Big Data and the Cloud (2017):49-68.
[9] Ullman, J., "The Battle for Data Science." Bulletin of the IEEE Computer Society Technical Committee on Data Engineering (2020).