【数据中台】六、数据开发：数据价值提炼工厂

最新推荐文章于 2024-08-15 17:38:10 发布

xiexie1357

最新推荐文章于 2024-08-15 17:38:10 发布

阅读量886

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/xiexie1357/article/details/112732691

版权

数据开发是数据中台的核心环节，涵盖离线开发、实时开发和算法开发。离线开发包括作业调度、基线控制等，实时开发涉及元数据管理和SQL驱动，算法开发提供可视化和Notebook建模。数据计算能力分为批处理、流计算、在线查询和即席分析，满足不同业务需求。

摘要由CSDN通过智能技术生成

数据开发是数据资产内容建设的主战场，是数据价值生产过程中的核心环节，可以支撑大批量数据的离线处理、实时处理和数据挖掘等。
在这里插入图片描述

数据开发设计的产品能力主要包括三个部分，分别是离线开发、实时开发和算法开发。

产品能力依赖于存储能力和计算能力的封装

根据加工场景抽象，分成四大类：批计算、流计算、在线查询和即席分析。不同场景配合不同的存储和计算框架来实现，以满足业务的复杂需求。

在这里插入图片描述

批计算
主要用于批量数据的高延时处理场景，如离线数仓的加工、大规模数据的清洗和挖掘等。
目前大多是利用MapReduce、hive、spark等计算框架进行处理，其特点是数据吞吐量达、延时高、适合人机交互少的场景。
流计算
也叫实时流计算，对于数据的加工处理和应用有较强的实效性要求，常见于告警监控场景，例如实时分析网络事件。
这类场景目前应用较多的计算框架主要有flink、spark streaming和storm等。
在线查询
主要用于数据结果的在线查询、条件过滤和筛选等，如数据检索、条件过滤等。
营销场景对响应延时要求高的，一般会采集缓存型的存储计算，如redis、tair等；
对响应延时要求正常的，可以选择hbase和mysql等；
需要进行条件过滤、检索的，可以选择es等。
即席分析
主要用于分析型场景和经验统计。企业80%的数据处理需求是在线查询和即席分析。
针对不同维度的分析，有多种方式可以提供，提前固定计算的维度、根据需求任意维度的交叉分析（ad-hoc）等都是常见的场景。
如kylin、impala、clickhouse、hawk等。