Spark
文章平均质量分 54
小流_跬步
不积跬步,无以至千里不积小流,无以成江海。千里之行,始于足下。技术征程,百折不挠。我思故我在。
展开
-
Spark的那些事(一)一文了解spark
Spark是一个快速的集群化的实时计算系统。支持Java, Scala, Python 和R语言的高级API。一 Spark生态: 支持Spark Sql用于sql和结构化数据查询处理;支持MLlib用于机器学习;支持GraphX用于图形处理;支持Spark Streaming和Structured Sql(spark2.1.1版本发布)用于实时计算。(其中,我们使用的Spark功能主要原创 2018-01-15 14:29:08 · 1240 阅读 · 0 评论 -
Spark的那些事(二)Structured streaming中Foreach sink的用法
Structured streaming默认支持的sink类型有File sink,Foreach sink,Console sink,Memory sink。 特别的说明一下Foreach sink的用法(ps:以通过Foreach sink写入外部redis为例)。 lastEtlData.writeStream().foreach(new TestForeachWriter()).o...原创 2018-03-22 18:07:40 · 3738 阅读 · 1 评论 -
spark的那些事(三) Structured streaming 窗口期内存数据的查询
之前的文章中提过,structured streaming处理流数据,如果使用聚合,将会有window的概念,对应属性watermark.不知你是否了解过druid,druid处理数据同样有窗口期的概念,用于判断数据何时丢弃.超时的数据将被直接丢弃. druid的实现比较完善.不管是窗口期的内存数据还是固化到hdfa中的数据,都可以实时联合查询.而structured streaming目前尚未...原创 2018-03-22 18:09:16 · 1317 阅读 · 0 评论 -
Spark的那些事(四) java操作kudu全示例(含sparksql)
上文提到,使用kudu等列式存储将数据以update模式写入kudu. 下面说一下java操作kudu的相关demo。java操作kudu在git上有相关demo,而spark操作kudu并没有。cloudera官网的操作中只提到了scala版本。本文列举java操作kudu的全示例,仅供入门参考。(痛苦的是sparksql查询kudu的java实现,官方没有示例,google也不好用)1)...原创 2018-03-22 18:10:08 · 2866 阅读 · 0 评论