大数据
wuxuyang_7788
这个作者很懒,什么都没留下…
展开
-
我提交的第一个Flink commit - Flink 闭包检查
为什么闭包Flink中算子都是通过序列化分发到各节点上,所以要确保算子对象是可以被序列化的。算子的成员变量,代码中的匿名内部类都是检查的范围。闭包检查入库被调用的入口是 StreamExecutionEnvironment#clean()而真正执行闭包检查的是ClosureCleaner#clean()代码不复杂。我们之间看代码来分析private static void clean(Object func, ExecutionConfig.ClosureCleanerLevel level, b原创 2020-10-23 09:16:16 · 588 阅读 · 5 评论 -
Flink 源码阅读之Async IO该如何使用
先看例怎么实现一个异步IO的例子public class AsyncFunctionExample extends RichAsyncFunction<String, String> { private transient DataSource dataSource = null; @Override public void open(Configurati...原创 2020-03-21 18:14:40 · 456 阅读 · 0 评论 -
一个由于JAR冲突导致的Flink checkpoint失败的问题
开门见山上报错2020-03-05 16:30:08,219 WARN org.apache.hadoop.hdfs.DFSClient - DataStreamer Exceptionjavax.xml.parsers.FactoryConfigurationError: Provider for class javax.xml....原创 2020-03-05 17:18:50 · 590 阅读 · 0 评论 -
一个由FAIL_ON_SYMBOL_HASH_OVERFLOW引出的Flink类加载问题
Hadoop classpath下的Jackson 和User jar内的Jackson冲突此文章排查问题不单单指Flink,各种on YARN 集群环境都,本文都可以提供排查思路。直接亮出报错java.lang.NoSuchFieldError: FAIL_ON_SYMBOL_HASH_OVERFLO at org.elasticsearch.common.xcontent....原创 2020-03-03 22:38:15 · 309 阅读 · 0 评论 -
使用kibana界面导出数据
基于kibana 6+1 Management -> create index patterns选择你需要的索,并创建 之后一路确定就可以。2 Discover -> query -> save根据你的实际情况和查询条件查询你想要的数据保存你的查询结果。3 share and report设置...原创 2019-12-23 14:41:57 · 24355 阅读 · 0 评论 -
Table 和 tableSink schema不匹配问题
使用SQL 查询获取一个table结果,但通过JsonRowSerializationSchem.Builder(string schema).build()构造出来的table schema 无法与之相匹配背景 做一个统计,随将Datastream 注册成了Table,并使用SQL获取一个简单的查询结果。最后将数据写入Es。上代码:public class AggregationFunct...原创 2019-12-20 18:21:40 · 3702 阅读 · 0 评论 -
Flink简单教学6-operator
OperatorsDataStream Transformationstransformation 译为算子Transformation描述MapDataStream → DataStream传入一个元素,返回一个元素元素之间类型可以不一样FlatMapDataStream → DataStream传入一个元素,返回0个或多个元素,类型可以不同Filter...原创 2019-11-26 21:15:34 · 258 阅读 · 0 评论 -
Flink简单教学5-时间
时间(Time)Flink支持三种不同的时间:处理时间(processing time):指当前操作的时间(如:map())。当程序以处理时间运行,所有基于时间的操作(窗口),都依赖各个operator的机器时间。事件时间(event time):事件时间可以理解称为数据产生的时间,是和数据绑定的。使用事件时间时必须设置其水印,在一定范围内可以处理乱序数据。接收时间(ingestion ...原创 2019-11-18 18:55:19 · 201 阅读 · 0 评论 -
Flink简单教学4-编程模型
编程模型此章编程模型是重点,理解Flink是如何工作的。虽然不涉及代码但非常有必要花时间阅读(2-4)节为重点1 层次抽象(Levels of Abstraction)从底向上,抽象程都由低到高,以下说明了解以下即可。最低层次的抽象仅仅提供了有状态的流。它通过流程函数嵌入到DataStream API中。它允许用户自由处理来自一个或多个流的事件,并使用一致的容错状态。此外,用户可以注...原创 2019-11-13 22:41:59 · 167 阅读 · 0 评论 -
Flink简单教学3-编写你的第一个flink程序
编写你的第一个flink程序被公认为大数据的hello world程序world count。我们将用flink Stream 编写一个通socket中读取字符并统计出结果。 创建maven工程,指定JAVA编译版本1.8<build> <plugins> <plugin> <groupId...原创 2019-11-12 10:58:27 · 838 阅读 · 0 评论 -
Flink简单教学2-本地安装和运行
下载安装包访问官网,下载最新版本。本教程使用Flink1.9版本。目录说明bin flink 启动的脚本文件lib flink 运行时jar包依赖conf flink 启动的配置,如web端口,日志配置等example flink 提供了很多例子,不但有流和批的还有python接口的执行例子启动cluster单机版 进入bin执行命令 wind...原创 2019-11-12 10:57:56 · 329 阅读 · 0 评论 -
Flink简单教学1-什么是Flink
什么是Flink官方翻译Apache Flink是一个分布式处理引擎,用于无界和有界数据流上的有状态计算。Flink可以在大部分常见的集群和任何内存规模中运行。处理无界数据(Unbounded and Bounded Data)任何类型的数据都是作为一个事件流。信用卡交易、传感器测量、机器日志、网站或移动应用程序上的用户交互,所有这些数据都以流的形式生成。数据可以作为无界或有界流处理。...原创 2019-11-12 10:57:37 · 270 阅读 · 0 评论 -
FLINK源码阅读-FLINK LOCAL 模式启动过程
从StreamExecutionEnvironment跟进去可以看到,实现类里面有个LocalStreamEnvironment,这个就是local模式启动的入口从 StreamExecutionEnvironment.execute() 进去public JobExecutionResult execute() throws Exception { return execute(DEFAU...原创 2019-10-10 15:28:26 · 480 阅读 · 0 评论