Flink
AaronLwx
这个作者很懒,什么都没留下…
展开
-
Flink学习笔记
01-为什么要学习Apache Flink 实时计算,流计算,风控 bounded stream 有始有终的数据集合,这个数据集合是有大小的,会有一个结果 unbounded stream 很难有一个结果或者没有结果,因为数据是不停的进来,要不就不断的产生结果 state 有状态计算 application state is a first-class citizen in Fli...原创 2019-05-04 13:55:26 · 2665 阅读 · 0 评论 -
Flink清洗日志服务SLS的数据并求ACU&PCU
上文说到为什么使用Flink实时消费阿里云日志服务SLS的数据,并把阿里云上Flink消费SLS的代码粘贴到本地,做了相关修改之后成功把整个流程跑通了。但仅仅这样是不够的,从控制台上面输出的数据来看是个比较难看的字符串,可以说没多大用处。因此本文主要是继续使用Flink来对从日志服务SLS过来的数据做一系列的清洗,然后再计算几个工作中的指标。 相关ETL代码如下,就是把需要使用到的各个字段提取出...原创 2019-08-19 12:26:42 · 1595 阅读 · 1 评论 -
Flink源码阅读之生成StreamGraph
首先,从一个流式计算的例子WordCount来入手。 我们知道这个程序只有env调用了execute方法才会正式的执行,那么execute方法里面一开始会先创建StreamGraph,然后再生成JobGraph,接着生成ExecutionGraph,最后生成物理执行计划。下面先介绍StreamGraph是如何生成的。 点击进入execute 通过调用这个...原创 2019-08-10 17:12:38 · 164 阅读 · 0 评论 -
Flink实时消费阿里云日志服务SLS的数据
之前调研打算使用Spark Streaming来消费阿里云日志服务SLS的日志,具体的架构实现见之前的博客,大概流程就是使用Flume去收集阿里云日志服务SLS的数据,把采集到的数据sink到Kafka,最后Spark Streaming来消费。 咋一看上面整个链条太长,其实也是可以直接使用Spark Streaming来消费阿里云日志服务SLS的数据,但个人感觉自从阿里云收购了Flink之后,...原创 2019-08-08 14:29:19 · 3993 阅读 · 0 评论 -
Flink的源码编译兼容Hadoop2.6.0-CDH-5.7.0
因为我本地的Hadoop版本为hadoop-2.6.0-cdh5.7.0,所以根据这个Hadoop版本来编译Flink 编译Flink源码前置条件 Maven 3.3.9 or newer Java 8+ Scala 好,检查过后,没啥问题了。 Flink的源码托管在Github上面,先去那里看一看 https://github.com/apache/flink 今天我们要...原创 2019-07-21 16:15:06 · 887 阅读 · 0 评论