- 博客(4)
- 收藏
- 关注
原创 【Spark实战系列】Spark SQL 读取 hbase 映射到 hive 表的数据
这篇文章主要来介绍一下用Spark SQL 如何读取hbase映射到hive的表,有的时候我们的数据存储在hbase中,但是想要用spark去分析,这时候就要用spark读取hbase的数据,spark读取hbase中的数据有很多种方式,今天来介绍一种比较方便的方法.之前也用newAPIHadoopRDD的方式读取过hbase,但是这种方式读取后是一个RDD,虽然通过RDD也可以注册成表,但是...
2020-02-29 01:53:04 2626
原创 Flink 1.10.0 SQL DDL中如何定义watermark和计算列
随着Flink1.10.0版本的发布,在SQL上一个重大的优化是支持了watermark语义的计算,在之前的Flink1.9.x版本中是不支持的,当时只能用SQL DDL进行proces...
2020-02-26 00:33:24 10233 14
原创 【Flink实战系列】Flink异步IO访问mysql和redis
流计算系统中经常需要与外部系统进行交互,比如需要查询外部数据库以关联上用户的额外信息。通常,我们的实现方式是向数据库发送用户a的查询请求(例如在MapFunction中),然后等待结果返回,在这之前,我们无法发送用户b的查询请求。这是一种同步访问的模式,为了提高性能阿里向Flink提交了异步IO访问第三方存储的方式,大幅度的提升了程序的性能。这个问题其实是上次遗留的问题,当时是写了scala的...
2020-02-23 16:57:51 2574 4
原创 【Flink实战系列】Flink 如何实现多个 sink 输出
在实际的生产环境中,我们的Flink任务可能需要同时写入多个存储,也就说会有多个sink,当然Flink是支持多个Sink,而且多个sink之间是并行的关系,互相也没有影响,具体的实现代码如下:package flink.tableimport java.sql.Timestampimport java.util.TimeZoneimport flink.util.CommonUti...
2020-02-04 14:28:54 18971 29
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人