实战：Flink 1.12 维表 Join Hive 最新分区功能体验

最新推荐文章于 2024-08-01 04:25:15 发布

yscoder

最新推荐文章于 2024-08-01 04:25:15 发布

阅读量1.9k

点赞数 3

分类专栏：大数据流计算相关

本文链接：https://blog.csdn.net/yscoder/article/details/111587435

版权

本文介绍了Flink 1.12版本新增的实时关联Hive最新分区功能，通过SQL直接实现数据打宽，简化了开发流程，减少了维护成本。文章详细阐述了旧方案的复杂性和新方案的配置与使用，并提供了一个关联Hive最新分区的Demo，展示了如何通过Flink SQL高效地处理实时数据流与Hive分区表的关联。

摘要由CSDN通过智能技术生成

我们生产常有将实时数据流与 Hive 维表 join 来丰富数据的需求，其中 Hive 表是分区表，业务上需要关联上 Hive 最新分区的数据。上周 Flink 1.12 发布了，刚好支撑了这种业务场景，我也将 1.12 版本部署后做了一个线上需求并上线。对比之前生产环境中实现方案，最新分区直接作为时态表提升了很多开发效率，在这里做一些小的分享。

Flink 1.12 前关联 Hive 最新分区方案
Flink 1.12 关联 Hive 最新分区表
关联Hive最新分区 Demo
Flink SQL 开发小技巧

Flink 1.12 前关联 Hive 最新分区方案

在分区时态表出来之前，为了定期关联出最新的分区数据，通常要写 DataStream 程序，在 map 算子中实现关联 Hive 最新分区表的逻辑，得到关联打宽后的 DataStream 对象，通过将该 DataStream 对象转换成 Table 对象后，再进行后续的 SQL 业务逻辑加工。

StreamTableEnvironment tblEnv = StreamTableEnvironment.create(env, streamSettings);  
DataStream<Tuple2<MasterBean, HiveDayIndexBean>> indexBeanStream = masterDataStream.map(new IndexOrderJoin());

map 算子中的主要逻辑: 将 T+2 的维度数据与实时数据关联，返回 Tuple2<MasterBean, HiveDimBean> 数据，因为离线数仓出数一般在凌晨 3 点，有时候由于集群资源不稳定导致数据产出慢，业务对实时性要求也不高，所以这里用的是 T+2 的数据。

public class IndexOrderJoin extends RichMapFunction<MasterBean, Tuple2<MasterBean, HiveDimBean>> {    
    private Map<Integer, Map<String, HiveDimBean>> map = null;  
    Logger logger;  
  
    @Override  
    public void open(Configuration parameters) throws Exception {  
        logger = LoggerFactory.getLogger(Class.forName("com.hll.util.IndexOrderJoin"));  
        map = new HashMap<>(); 
    }  
  
public Tuple2<MasterBean, HiveDayIndexBean> map(MasterBean masterBean) {    
    if (map.get(masterBean.getReportDate() - 2) == null) {    
        //如果map里没有T+2的维表数据则查询一次Hive，并将结果存入线程级别map，所以保证Task维表数据是全的    
        logger.info("initial hive data : {}", masterBean.getReportDate());    
        map.put(masterBean.getReportDate() - 2, getHiveDayIndex(masterBean.getReportDate() - 2));    
    }    
    //将的kafka数据与hive join后返回打宽数据    
    return new Tuple2<>(masterBean, map.get(masterBean.getReportDate() - 2).get(masterBean.getGroupID()));    
}

基于关联打宽后的 DataStream 创建视图，然后再做后续的 SQL 业务逻辑查询。

tblEnv.createTemporaryView("index_order_master", indexBeanStream); tblEnv.sqlUpdate("select group_id, group_name, sum(amt) from index_order_master  group by group_id, group_name"); 
tblEnv.execute("rt_aggr_master_flink");

可以看出，在没有支持 Hive 最新分区做时态表的时候，简单的一个 join 便涉及到DataStream、map 算子，程序的代码量和维护成本会是比较大的。

Flink 1.12 关联 Hive 最新分区表

Flink 1.12 支持了 Hive 最新的分区作为时态表的功能，可以通过 SQL 的方式直接关联 Hive 分区表的最新分区，并且会自动监听最新的 Hive 分区，当监控到新的分区后，会自动地做维表数据的全量替换。通过这种方式，用户无需编写 DataStream 程序即可完成 Kafka 流实时关联最新的 Hive 分区实现数据打宽。

参数解释

■ streaming-source.enable 开启流式读取 Hive 数据。

■ streaming-source.partition.include

1.latest 属性: 只读取最新分区数据。2.all: 读取全量分区数据，默认值为 all，表示读所有分区，latest 只能用在 temporal join 中，用于读取最新分区作为维表，不能直接读取最新分区数据。

■ streaming-source.monitor-interval 监听新分区生成的时间、不宜过短、最短是1 个小时，因为目前的实现是每个 task 都会查询 metastore，高频的查可能会对metastore 产生过大的压力。需要注意的是，1.12.1 放开了这个限制，但仍建议按照实际业务不要配个太短的 interval。

■ streaming-source.partition-order分区策略