【闲聊】大数据开发新需求要考虑什么

最新推荐文章于 2024-05-04 19:25:36 发布

和风与影

最新推荐文章于 2024-05-04 19:25:36 发布

阅读量306

点赞数

文章标签： big data hive 大数据

本文链接：https://blog.csdn.net/weixin_45545090/article/details/125324544

版权

之前的文章写过了做大数据开发新需求的流程，没看过的可以看前面的文章。

那么开发之前需要考虑什么呢？这里就需要将所有需要考虑的问题及答案总结下来，形成一个技术方案文档，经过整个团队的评审，再进行开发。下面聊一聊出一个需求的方案需要考虑什么。

方案设计要考虑的问题包括：数据产出、链路设计、源表说明、口径说明、表结构设计。

首先设计出整个数据链路的拓扑图，举个例子：

在这里插入图片描述

这里需要注意用到的每个表的最晚产出时间，这决定了你的app层表最终产出的时间是几点。

这里就是对上面拓扑图的解释，每一次聚合或者 join 得到什么结果。

介绍上面拓扑图中用到的表，从中获得什么数据。

阐述一些计算的逻辑，比如：

产出的表有哪些字段、数据类型（比如百分数，存 0.35 还是 35？）、增量还是全量等。

计算上面拓扑图中各个节点产出的资源消耗（CPU 核数、内存大小）和用时，比如：

因为 Hive 表最终要推到 ES 或者 CH 才能供后端调用，所以这里需要记录 ES 的数据源是哪个 Hive 表，用在前端页面上的哪个模块。即 ES - Hive - UI 界面的对应关系。并给出 SQL 查询的示例，让后端开发人员知道如何用怎样的 SQL 语句去查询。

开发完后回溯历史数据。

具体考虑的问题还是很多的，并不是直接的运行代码跑历史分区那么简单。如果这里不好理解，我可以举一个例子：

表及其字段：table1 里面有三个指标 A、B、C，假如 A 是今日访问次数，B 是今日访问次数较昨日涨幅，C 是今日访问次数较上月涨幅。
回溯范围：回溯历史 120 天的数据。
问题：由于 B 指标依赖昨天的数据，C 指标依赖上月的数据，那么回溯只能一天一天跑，1 月 1 日跑完了才能跑 1 月 2 日。
- 时间：假如跑一天的数据要 15 min，那回溯 120 天就要 15 * 120 = 1800 min = 30 h，这不是浪费时间吗？
- 资源：假如跑一天的数据要 300 核 CPU、1 T 内存，但是集群资源有 10000核 CPU、1000T 内存，这不是浪费资源吗？

显然一天一天跑数据是不可接受的。所以必须要想办法解决依赖，提高并行。至于怎么提高，后面单独写文章。