第一章数据产品时代

最新推荐文章于 2024-10-08 09:12:18 发布

rh@x

最新推荐文章于 2024-10-08 09:12:18 发布

阅读量67

点赞数

文章标签：大数据人工智能

本文链接：https://blog.csdn.net/xueuihui/article/details/126540941

版权

1.1 什么是数据产品

数据产片就是数据与用于推断或预测的统计算法的结合。通常，我们将数据产品描述为一重从哪个数据中学习、自适应并且广泛使用的系统。

1.2 使用Hadoop构建大规模数据产品

大多数数据科学家会采用典型的分析工作流：采集→整理→建模→报告和可视化。这种数据科学流水线完全由人力驱动，虽有脚本语言（R和Python）辅助，但是每个环节仍需人力，且意在产生过独特其恶恶不可泛化的结果。随着数据越来越多，自动获取有用信息而无需人工干预变得越来越重要。

在理解数据的认知过程中，深入研究具体层面的的细节，然后再回到概览角度。但是一些细节并不一定可靠，细粒度可能会限制我们的理解能力。然而，通过统计的方法能够帮助我们理解数据，但是它们以牺牲计算粒度为代价，这可能会对有意义的罕见事件进行排除。此外，兼顾罕见事件的统计技术需要更多的计算资源。传统方法会对较大数据集进行抽样方法，用较小的数据子集替代总体。

1.3 数据科学流水线和Hadoop生态系统

数据科学流水线使一种教学模型，用于教授对数据进行全面统计分析所需的工作流，如下图所示。

手动的数据准备和挖掘方法在大规模数据集上局限性明显，另外，以人为中心的单向工作流也不能有效设计能够学习的自适应系统。要创建一个框架，支持构建可扩展和可自动化的解决方案，从而能够解释数据和生成有用的信息，就必须修改数据科学流水线，重点在于包含机器学习方法的反馈循环。

大数据工作流在数据科学工作流的基础上重构而来，它包括阔采集、分段、计算和工作流管理四个阶段的迭代模型，如下图所示。

采集阶段：使模型的初始化阶段。初始化期间，用户制定数据源的位置或标注数据；在交互期间，用户消费模型的预测结果并提供用于巩固模型的反馈。

分段阶段：使转换数据的阶段。使其变为可消费的形式存储起来，从而能够用于处理。主要负责归一化和标准化工作，以及一些计算数据存储中的数据管理工作。

计算阶段：使真正的干活阶段。挖掘有用的信息，执行聚合并报告，构建用于推荐、聚类或分类的机器学习模型。

工作流管理阶段：用于执行抽象、编排和自动化任务，使工作流的各个步骤都用于生产环境。

Hadoop已经演变成了包含工具的生态系统，可以实现上述流水线的部分环节。例如Sqoop和Kafka可以用于数据采集，支持将关系数据库导入Hadoop或分布式消息队列，以进行按需处理。另外，Hadoop中的Hive和HBase之类的数据仓库提供了大规模的数据管理机会；Spark的GrahpX、MLlib或Mahout库提供了分析包，提供大规模设计和验证使用。