第一章 数据产品时代

1.1 什么是数据产品

数据产片就是数据与用于推断或预测的统计算法的结合。通常,我们将数据产品描述为一重从哪个数据中学习、自适应并且广泛使用的系统。

1.2 使用Hadoop构建大规模数据产品

大多数数据科学家会采用典型的分析工作流:采集→整理→建模→报告和可视化。这种数据科学流水线完全由人力驱动,虽有脚本语言(R和Python)辅助,但是每个环节仍需人力,且意在产生过独特其恶恶不可泛化的结果。随着数据越来越多,自动获取有用信息而无需人工干预变得越来越重要。

在理解数据的认知过程中,深入研究具体层面的的细节,然后再回到概览角度。但是一些细节并不一定可靠,细粒度可能会限制我们的理解能力。然而,通过统计的方法能够帮助我们理解数据,但是它们以牺牲计算粒度为代价,这可能会对有意义的罕见事件进行排除。此外,兼顾罕见事件的统计技术需要更多的计算资源。传统方法会对较大数据集进行抽样方法,用较小的数据子集替代总体。

1.3 数据科学流水线和Hadoop生态系统

数据科学流水线使一种教学模型,用于教授对数据进行全面统计分析所需的工作流,如下图所示。

手动的数据准备和挖掘方法在大规模数据集上局限性明显,另外,以人为中心的单向工作流也不能有效设计能够学习的自适应系统。要创建一个框架,支持构建可扩展和可自动化的解决方案,从而能够解释数据和生成有用的信息,就必须修改数据科学流水线,重点在于包含机器学习方法的反馈循环。

大数据工作流在数据科学工作流的基础上重构而来,它包括阔采集、分段、计算和工作流管理四个阶段的迭代模型,如下图所示。 

采集阶段:使模型的初始化阶段。初始化期间,用户制定数据源的位置或标注数据;在交互期间,用户消费模型的预测结果并提供用于巩固模型的反馈。

分段阶段:使转换数据的阶段。使其变为可消费的形式存储起来,从而能够用于处理。主要负责归一化和标准化工作,以及一些计算数据存储中的数据管理工作。

计算阶段:使真正的干活阶段。挖掘有用的信息,执行聚合并报告,构建用于推荐、聚类或分类的机器学习模型。

工作流管理阶段:用于执行抽象、编排和自动化任务,使工作流的各个步骤都用于生产环境。

Hadoop已经演变成了包含工具的生态系统,可以实现上述流水线的部分环节。例如Sqoop和Kafka可以用于数据采集,支持将关系数据库导入Hadoop或分布式消息队列,以进行按需处理。另外,Hadoop中的Hive和HBase之类的数据仓库提供了大规模的数据管理机会;Spark的GrahpX、MLlib或Mahout库提供了分析包,提供大规模设计和验证使用。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值