今天我们来说一下flink,大家可能对flink还不是特别的熟悉,其实它是一个很早的项目,只是在2016年的时候才被大家所注意到,现在已经被很多公司所使用,作为一个后起之秀,或者说流计算的新贵,为什么它能得到大家的认可呢,Flink把批处理当作流处理中的一种特殊情况.在Flink中,所有的数据都看作流.这是一个很好的抽象.再加上它完善的checkpoint机制,使得它对状态的管理非常的细致.所以能够脱颖而出,相信在阿里这个巨人的肩膀上,它会很快火起来的.那我们今天就来玩一下flink,先从最基本的搭建flink集群开始吧.
这一篇介绍的是standalone模式,flink on yarn的请看这里
1.Flink独立集群模式安装(Cluster Standalone)
(1),JDK的配置和各个机器之间的免密我就不说了,网上随便一搜一大堆.
(2),解压包: tar -zxvf flink-1.6.0-bin-hadoop28-scala_2.11.tgz
(3),配置conf/flink-conf.yaml文件,如下所示:
#Jobmanager的IP地址,即master地址。
jobmanager.rpc.address: master
#每一个TaskManager的堆大小(单位是MB),由于每个taskmanager要运行operat